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Presentation 


El  analisis  estadfstico  multivariantc  es  una  herramienta  de  investigacion  y generacion 
de  conocimiento  extraordinariamente  valiosa,  tanto  en  las  ciencias  naturales  como  en 
las  ciencias  sociales.  Este  libro  es  una  valiosa  aportacion  a la  literatura  en  espanol  so- 
bre  este  tenia.  Muchos  de  los  interesantes  problemas  que  contiene  ayudan  a compren- 
der  y apreciar  el  potencial  de  las  tecnicas  clasicas  de  analisis  multivariante,  mientras 
que  otros  gufan  al  lector  para  profundizar  en  aspectos  metodologicos  de  interes  de  las 
tecnicas  estudiadas.  Un  atractivo  especial  de  este  libro  es  la  inclusion  de  numerosas 
rutinas  de  Matlab  que  permiten  aplicar  de  forma  facil  y flexible  las  tecnicas  considera- 
das  a distintos  conjuntos  de  datos  reales.  Las  autoras,  Amparo  Bafllo  y Aurea  Grane, 
tienen  gran  experiencia  en  la  ensenanza  de  estas  tecnicas  y el  libro  muestra  claramente 
su  gran  experiencia  en  el  analisis  de  datos  reales  y en  la  presentacion  de  los  resultados 
del  analisis. 

Recomiendo  este  libro  a todos  los  interesados  en  las  aplicaciones  del  analisis  multiva- 
riante y,  muy  especialmente,  a las  personas  que  deseen  disponer  de  un  lenguaje  potente 
y flexible,  como  Matlab,  que  les  permita  escribir  sus  propias  rutinas  de  programacion, 
liberandose  del  esquema  rigido  de  los  programas  convencionales.  Estoy  seguro  de  que 
encontraran  este  libro  muy  util  para  este  objetivo. 


Daniel  Pena 

Catedratico  de  Estadfstica 
Universidad  Carlos  III  de  Madrid 
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Introduction 


El  objetivo  de  este  libro  es  ayndar  a comprender  todo  un  conjunto  de  tecnicas  ex- 
ploratorias  y estadfsticas  que  permiten  sintetizar,  representar  e interpretar  los  datos 
obtenidos  de  la  observacion  simultanea  de  vaiias  valuables  estadfsticas.  Asf  pues  el 
libro  se  centra  en  el  analisis  estadfstico  de  matrices  de  datos,  con  el  tin  de  extraer  de 
forma  rapida  la  informacion  mas  relevante  contenida  en  ellas.  Los  datos  de  tipo  mul- 
tivariado  aparcccn  actualmente  en  contextos  muy  diversos,  como  son  el  mundo  de  la 
Economfa  y las  Finanzas,  las  Ciencias  Experimentales  y la  Ingenierta  o tambien  en  las 
Ciencias  Humanas  y Sociales. 

Los  temas  que  se  tratan  pueden  clasificarse  en  tres  apartados: 

• Inferencia  multivariante. 

• Tecnicas  de  representacion  y de  reduccion  de  la  dimension. 

• Tecnicas  de  clasificacion:  analisis  de  conglomerados  y analisis  discriminante. 

Los  problemas  intentan  recoger  la  diversidad  de  los  campos  de  aplicacion  menciona- 
dos  anteriormente  y,  en  este  sentido,  se  ha  procurado  buscar  conjuntos  de  datos  que 
fueran  interesantes  para  un  publico  de  procedencia  muy  diversa. 

Este  libro  es  fruto  de  las  experiencias  docentes  de  las  autoras  en  la  Diplomatura  en 
Estadfstica  y la  Licenciatura  en  Administration  y Direction  de  Empresas  de  la  Uni- 
versidad  Carlos  III  de  Madrid  y en  la  Diplomatura  en  Estadfstica,  la  Licenciatura  en 
Matematicas  y la  Licenciatura  en  Biologta  de  la  Universidad  de  Barcelona.  En  gene- 
ral, este  libro  esta  dirigido  a estudiantes  y docentes  de  cualquier  disciplina  en  la  que 
sea  necesario  extraer  informacion  de  un  conjunto  de  datos  multivariantes. 

Para  un  seguimiento  adecuado  del  libro  se  requieren  conocimientos  basicos  de  Calculo 
de  Probabilidades  y de  Inferencia  Estadfstica.  Ademas  son  deseables  buenos  conoci- 
mientos de  algebra  lineal,  mas  alia  de  la  resolution  de  sistemas  de  ecuaciones  lineales 
o de  un  leve  contacto  con  formas  cuadraticas  en  el  contexto  del  calculo  de  extremos  de 
una  funcion  real  de  vaiias  variables.  Es  quiza  demasiado  suponer  este  conocimiento 
previo  y por  ello  se  anade  un  tenia  adicional  necesario  para  el  desarrollo  del  libro. 
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Este  libro  consta  de  nueve  capi'tulos.  Los  tres  primeros  son  introductorios  y estan  de- 
dicados,  respectivamente,  a una  ampliacion  de  conceptos  de  algebra  lineal,  a familiari- 
zarse  con  las  matrices  de  datos  y una  introduccion  a la  inferencia  normal  multivariante. 
El  resto  de  capi'tulos  estan  dedicados  al  estudio  de  tecnicas  multivariantes  clasicas, 
como  son:  el  analisis  de  componentes  principales,  el  escalado  multidimensional,  el 
analisis  de  conglomerados,  el  analisis  factorial,  el  analisis  canonico  de  poblaciones  y 
el  analisis  discriminante. 

Soporte  informatico 

El  volumen  de  calculo  requerido  para  el  analisis  de  datos  multivariantes  hace  impracti- 
cable su  realizacion  manual,  no  solo  para  los  calculos  con  datos  reales,  sino  incluso  si 
se  trata  de  ejemplos  sencillos  con  datos  simulados  que  ilustren  y motiven  los  conceptos 
teoricos. 

Ya  desde  los  anos  70,  coincidiendo  con  la  evolucion  de  los  ordenadores  y la  apari- 
cion  de  los  primeros  paquetes  comerciales  de  programas  de  Estadfstica  (SPSS,  BMDP, 
SAS),  algunos  de  los  autores  de  libros  dedicados  al  Analisis  Multivariante,  conscien- 
tes  de  esta  situacion,  han  incluido  listados  de  programas  para  realizar  los  calculos 
coiTespondientes  a las  tecnicas  expuestas. 

Por  ello  hemos  crefdo  conveniente  disponer  de  un  software  que  permita  programar  de 
forma  muy  sencilla  las  tecnicas  que  el  usuario  desea  implementar.  Esto  es  posible  a tra- 
ves  de  programas  comerciales  como  MATLAB 1 y S-Plus,  o bien  sus  clonicos  gratuitos 
como  OCTAVE  y R,  por  citar  algunos.  Todos  ellos  tienen  incorporadas  estructuras  y 
operaciones  matriciales,  fundamentales  en  el  Analisis  Multivariante,  ademas  de  innu- 
merables  subrutinas  para  calculos  mas  especificos.  Puede  parecer  que  el  uso  de  estos 
programas  anade  complicaciones  a la  comprension  de  las  tecnicas  expuestas.  Pero,  en 
base  a la  experiencia,  hay  que  decir  que  ocuiTe  justamente  lo  contraiio:  el  lenguaje 
de  programacion  que  utilizan  se  asemeja  considerablemente  a la  notacion  matricial,  lo 
que  contribuye  a una  mayor  asimilacion  y aprendizaje  de  las  mismas. 

Amparo  y Aurea 


'Matlab  es  una  marca  registrada  de  The  MathWorks.  Inc.,  http://www.mathworks.com 
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CAPITULO 


Algebra  matricial  basica 


En  este  primer  capi'tulo  se  repasan  algunos  conceptos  de  algebra  matricial  que  seran 
extremadamente  utiles  para  el  tratamiento  de  datos  multivariantes.  Las  matrices  ayu- 
dan  a plantear  los  metodos  de  estadfstica  multivariante  de  manera  concisa  y facilitan 
su  implementacion  en  programas  de  ordenador. 

Comcnzarcmos  trabajando  con  normas  de  vectores,  productos  escalarcs  y proyeccio- 
nes  ortogonales.  A continuacion  recordaremos  el  calculo  de  matrices  inversas,  deter- 
minantes,  autovalores  y autovectores  y otros  conceptos  basicos  del  algebra  de  matri- 
ces. El  capi'tulo  concluye  determinando  el  signo  de  algunas  formas  cuadraticas. 


PROBLEMA  1.1 


Sean  u = (1,  2)',  v = (—2,  3/  y w = (3,  —5)'  tres  vectores  de  M2.  Evaluense  las 
siguientes  expresiones,  donde  a • b denota  el  producto  escalar  entre  los  vectores  a y 
by  ||a|j  = yrii  • a denota  la  norma  o longitud  del  vector  a. 

(a)  (u  — 2v)  • w (c) 

(b)  ||u  + v + w||  (d) 

( some  ion  ) 

Para  introducir  los  vectores  en  Matlab  escribimos 

u = [1  ; 2]  ; V = [-2  ; 3]  ; w = [3  ; -5]  ; 

(a)  (u  — 2 v)  • w = (u  — 2 v)'w  = 35.  Para  calcularlo  en  Matlab  escribimos 
(u-2*v) ' *w 


||u||  + ||  v||  + ||  w || 
(u  — v)  • (v  — w) 
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(b)  |j u + v + w||  = 2.  Para  calcular  la  norma  de  un  vector  u podremos  utilizar  la  orden 
de  Matlab  norm  (u) . Tambien  podemos  escribir  el  codigo  nosotros  mismos  mediante  una 
funcion  Matlab,  que  denominaremos,  por  ejemplo,  norma.  Para  utilizar  esta  funcion  dentro 
de  Matlab,  la  guardaremos  en  un  fichero  con  el  mismo  nombre  y extension  . m,  en  este  caso 
norma . m : 

function  nu  = norma (u) 
u = u ( : ) ; 

nu  = sqrt(u'*u)  ; 

Para  resolver  este  apartado,  en  la  ventana  de  comandos  de  Matlab  escribiremos: 
norma (u+v+w) 

Compruebese  que  se  llega  al  mismo  resultado  utilizando  la  funcion  interna  de  Matlab  norm. 

(c)  | u 1 1 + || v||  + || wj  = 2.2361.  En  Matlab 
norm(u)  + norm(v)  + norm(w) 

(d)  (u  — v)  • (v  — w)  = (u  — v)'(v  — w)  = —23.  Con  Matlab  se  calculana  asf 
(u-v) ' * (v-w) 


PROBLEMA  1.2 


Dados  dos  vectores  de  W,  u y a,  encuentrese  la  proyeccion  ortogonal  del  vector  u 
sobre  el  vector  a,  para: 

(a)  u = (8,  3)',  a =(4,-5)', 

(b)  u = (2,l,-4)',  a = (-5,3,11)'. 

SOLUCION  ) 

La  proyeccion  ortogonal  de  u sobre  la  direccion  determinada  por  a viene  dada  por  el  vector 
(Figura  1.1): 


donde  c = a/||aj|  es  el  vector  de  longitud  1 en  la  direccion  de  a.  Por  tanto,  u • c es  la  longitud 
de  la  proyeccion  v (esto  lo  utilizaremos  en  el  Problema  2.9). 

El  siguiente  codigo  (que  debe  guardarse  en  el  fichero  ProyOrto . m)  permite  calcular  la  pro- 
yeccion ortogonal  de  un  vector  u sobre  a: 

function  v = ProyOrto (u, a) 
u = u ( : ) ; a = a ( : ) ; 
v = (u / * a ) *a  /norm(a)  ; 


www.FreeLibros.me 


ALGEBRA  MATRICIAL  BASICA 


3 


El  vector  v es  la  proyeccion  ortogonal  de  u sobre  a. 

(a)  Dentro  de  Matlab  escribimos: 

U = [8,3]  ' ; a = [4, -5]  ' ; 
v = ProyOrto (u) 

y obtenemos  v = (1.6585,  —2.0732)'. 

(b)  Analogamente,  haciendo: 

u = [2, 1,-4]';  a = [-5,3,11]'; 
v = ProyOrto (u, a) 

obtenemos  v = (1.6452,  -0.9871,  -3.6194)'. 


PROBLEMA  1.3 


Calculense  los  valores  de  k que  hacen  que  los  siguientes  vectores  u y v seem  ortogo- 
nales. 

(a)  u = (—2,  k,  —4)',  v = (—1, 3,  k)', 

(b)  u = (— 2 ,k,—k)',  v = (l,3 ,k)'. 

( some  ion  ) 

Los  vectores  u y v son  ortogonales  (o  perpendiculares)  entre  si,  si  su  producto  escalar 

U • V = u'v  = v'u 

es  0.  Estableciendo  esta  condicion  sobre  los  vectores  u y v del  enunciado,  obtendremos  una 
ecuacion  de  la  que  despejaremos  k. 
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(a)  0 = u'v  = (-2,  k,  -4) 


(b)  0 = u'v  = — k2  + 3k  — 2 =>  k = 


= 2 + 3k  — 4fc  = 2 — k =>  k = 2. 


3 ± \/9  — 4(— 1)(— 2) 
2 


PROBLEMA  1.4 


Calculese  la  inversa  de  las  matrices 


/ 1 ° ° \ 

/ 9 1 0 0 \ 

A = 

5 4 0 , B = 

0 8-2  0 

: 

0 0 7 -3 

U 3 2 ) 

\ 0 0 0 6 / 

' SOLUCION  ) 


Uno  de  los  objetivos  de  este  ejercicio  es  comprobar  que  la  inversa  de  una  matriz  triangular 
inferior  (resp.  superior)  es  tambien  una  matriz  triangular  inferior  (resp.  superior).  Recordemos 
que  la  inversa  de  una  matriz  se  calcula  mediante  la  formula 

A^1  = |Ar1adj(A'), 


donde  | • | y adj(-)  denotan,  respectivamente,  el  determinante  y la  matriz  adjunta.  Concreta- 
mente  |A|  = 8 y 


A-x  = 


1 

8 


8 

_ 2 
3 

-1 


0 0 \ 

2 0. 


Para  hacer  estos  calculos  en  Matlab  escribimos  las  siguientes  lmeas  de  codigo 


A = [ 1 0 0 

1/3  4 0 

1/2  3 2 ] ; 

Inv_A  = inv (A) 

El  determinante  se  calcula  mediante  det  (A) . Analogamente,  |B|  = 3024  y 


/ 

168 

-21 

-6 

-3  \ 

i _ 1 

0 

189 

54 

27 

1512 

0 

0 

216 

108 

0 

0 

0 

252  / 
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PROBLEMA  1.5 


Considerense  las  matrices 

_ f 4 4.001  \ / 4 4.001  \ 

“ \ 4.001  4.002  ) y ~ ^ 4.001  4.002001  ) ' 

Observese  que  estas  matrices  son  casi  identicas  excepto  por  una  pequeha  diferencia 
en  el  elemento  (2,2).  Sin  embargo,  compruebese  que  A " 1 ~ — 3B_1,  es  decit;  que 
pequeiios  cambios  (tal  vez  debidos  al  redondeo  en  las  operaciones)  pueden  dar  lugar 
a inversas  muy  diferentes. 


( SOLUC ION  ) 

Calculamos  las  inversas  con  Matlab 


A = [ 4 4.001  ; 4.001  4.002  ] ; 

Inv_A  = inv(A) 

B = [ 4 4.001  ; 4.001  4.002001]  ; 

Inv_B  = inv(B) 

y obtenemos 


A-1  = 106 


f —4.0020 
V 4.0010 


4.0010  \ 
-4.0000  ) ’ 


B 1 = 106 


f 1.3340 
^ -1.3337 


-1.3337  \ 
1.3333  ) ' 


PROBLEMA  1.6 


Calculense  la  ecuacion  caracteristica  y los  autovalores  de  las  siguientes  matrices 


(a)  Ai  = 


(c)  A3 


2 2 
1 1 
1 1 


/ -2  0 3 \ 
(b)  A2  = 2 4 0, 

V 10  0/ 


(d)  A4 


2 1 1 \ 
12  1. 
112/ 


( SOLUC  ION  ) 


(a)  Los  autovalores  de  Ai  son  las  raices  de  su  polinomio  caracteristico 


P( A)  = |Ai  - AI| 


1 - A 2 
2 -2 -A 


(1  — A)(— 2 — A)  — 4 = A2  + A — 6. 
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El  polinomio  P( A)  toma  el  valor  0 para  Ai  = 2 6 A2  = —3.  Estos  son  los  autovalores  de 
Ai  (conviene  ya  acostumbrarse  a ordenarlos  de  mayor  a menor,  pues  mas  adelante,  al  calcular 
componentes  principales,  sera  necesario).  La  ecuacion  caracteristica  es  la  que  se  obtiene  de 
igualar  el  polinomio  caracterfstico  a cero  P( A)  = 0,  es  decir,  la  ecuacion  A2  + A — 6 = 0. 

(b)  El  polinomio  caracterfstico  de  A2  es 


P( A)  = |A2  - 
-2- A 
= 2 

1 

= (A-4)(3 


AI| 

0 3 

4- A 0 
0 -A 

-2A- A2)  = 


(A  — 4)  (A  + 3)(1  — A). 


Por  tanto,  la  ecuacion  caracteristica  de  A2  es  (A  — 4)(A  + 3)(1  — A)  = 0.  Los  autovalores  de 
A2  son  la  solucion  de  la  ecuacion  anterior:  Ai  = 4,  A2  = 1 y A3  = —3. 

(c)  La  ecuacion  caracteristica  de  A3  es  0 = P( A)  = IA3  — AI|  = A2(4  — A).  Entonces  los 
autovalores  de  A3  son  Ai  = 4 (autovalor  simple)  y A2  = A3  = 0 (autovalor  doble). 

(d)  La  ecuacion  caracteristica  de  A4  es  0 = (A  — 1)2(A  — 4),  por  lo  que  sus  autovalores  son 
Ai  = 4 y A2  = A3  = 1 (autovalor  doble). 


PROBLEMA  1.7 


Generese  una  matriz  X,  de  dimension  4x3  y un  vector  u,  4 X 1,  ambos  de  numeros 
aleatorios  y construyanse  las  matrices  simetricas  A = X.'  X y B = u u'. 

(a)  Calculense  la  traza  y el  determinante  de  A y B. 

(b)  Obtenganse  los  autovalores  y autovectores  de  A y B. 

(c)  Compruebese  que  la  traza  y el  determinante  de  A coinciden  respectivamente 
con  la  suma  y el  producto  de  los  autovalores  de  A. 

(d)  Obtenganse  los  rangos  de  A y B y compruebese  que  coinciden,  respectiva- 
mente, con  el  numero  de  autovalores  no  nulos  de  A v B. 


SOLUCION  ) 

Empezamos  construyendo  las  matrices  A y B a partir  de  la  generacion  aleatoria  de  X y u: 

X = rand [4,3]  ; 
u = rand [4,1]  ; 

A = X' *X; 

B = u*u' ; 
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(a)  Las  instrucciones  trace  (A)  y det  (A)  permiten  obtener  la  traza  y el  determinante  de 
A.  Haremos  lo  mismo  para  B. 

(b)  La  instruccion  [T,D]  =eig  ( A)  permite  encontrar la  descomposicion espectral  de  A,  es 
decir,  A = T D T',  donde  D y T son  matrices  de  la  misma  dimension  que  A,  tales  que:  D es 
una  matriz  diagonal  que  contiene  los  autovalores  de  A,  y T es  una  matriz  ortogonal  (es  decir, 
TT'  = T'T  = I)  cuyas  columnas  son  los  autovectores  de  A. 

Utilizando  la  misma  instruccion  obtendremos  los  autovalores  y autovectores  de  B.  Observad 
que  la  matriz  diagonal  que  contiene  los  autovalores  de  B tiene  solamente  un  elemento  diagonal 
no  nulo. 

(c)  Hay  que  comprobar  que  la  suma  y el  producto  de  la  diagonal  de  la  matriz  D,  es  decir, 
sum  (diag  (D)  ) y prod  (diag  (D)  ) , coinciden  con  trace  (A)  y det  (A) , respectiva- 
mente. 

(d)  La  instruccion  rank  (A)  permite  obtener  el  rango  de  A,  que  debe  coincidir  con  el  nu- 
mero  de  elementos  no  nulos  de  la  diagonal  de  D.  Haremos  lo  mismo  para  B.  Observad  que  B 
es  una  matriz  de  rango  uno,  tal  como  cabfa  esperar,  puesto  que  la  hemos  construido  a partir  de 
un  unico  vector. 


PROBLEMA  1.8 


Considerense  las  matrices  siguientes: 

/ 2 1 4 \ / 1 1 -1  \ / 2 1 1 \ 

A = I — 1 4 1,  B = 01  0 , C = 1 2-1. 

\ 2—14/  \ -1  0 1 ) \ —1  — 1 2 / 

(a)  i Son  idempotentes? 

(b)  Calculese  su  determinante. 

(c)  i San  definidas  positivas? 

(d)  i Son  ortogonales? 

( SOLUC ION  ) 

(a)  Una  matriz  cuadrada  A es  idempotente  si  A2  = A.  En  este  caso,  o bien  A es  la  matriz 
identidad,  o bien  A es  singular  (es  decir,  | A j = 0).  Asfmismo,  si  A es  idempotente  entonces 
rg(A)  = tr(A). 

Puesto  que  |A|  = 12  ^ 0 y |C|  =6^0,  entonces  ni  A,  ni  C son  idempotentes.  Por  otro 
lado,  aunque  |B|  = 0,  la  matriz  B tampoco  es  idempotente,  porque  tr(B)  = 3 7^  rg( B)  = 2. 

(b)  Esta  respondido  en  el  apartado  anterior. 
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= 2 > 0 ; 

= 9>0; 

= 12  >0. 

Por  tanto,  por  el  criterio  de  Sylvester,  A es  definida  positiva.  En  cambio,  B no  lo  es  puesto  que 
|B|  = 0.  Para  ver  que  C es  definida  positiva  podemos  calcular  sus  autovalores  con  Matlab: 

C = [211;  12-1;  -1-12]; 
eig (C) 

y vemos  que  todos  son  positivos  Ai  = 3,  A2  = 2 y A3  = 1.  Por  tanto,  C es  definida  positiva. 
(d)  Una  matriz  cuadrada  A es  ortogonal  si 

AA'  = A'A  = I. 


(c)  Los  menores  principales  de  A son 


|2| 

2 1 
-1  4 

I AI 


Con  el  codigo  A*A' , B*B' , C*C' , comprobamos  que  ninguna  de  las  tres  matrices  verifica 
esta  condicion  y,  por  tanto,  ni  A,  ni  B,  ni  C son  ortogonales.  Por  ejemplo. 


A A' 


21  6 19  \ 

6 18-2 
19  -2  21  J 


PROBLEMA  1.9 


Calculese  la  descomposicion  espectral  de 

/ 3 2 2 \ 

A = 2 3 2 

\ 2 2 3 / 


' SOLUCION  ) 

La  descomposicion  espectral  de  una  matriz  simetrica  A de  dimension  k / k consiste  en  expre- 
sar  A de  la  siguiente  manera: 

A = Aieie^  + A2e2e2  + . . . + A^e^e^,  (1.1) 

donde  Ai, . . . , A*  son  los  autovalores  de  A y C| , . . . , c/,.  son  autovectores  normalizados  de  A 
asociados  respectivamente  a Ai, . . . , A*  y ortogonales  entre  si.  Recordemos  que  esta  ultima 
condicion  se  cumple  automaticamente  en  una  matriz  simetrica  cuando  todos  sus  autovalores 
son  distintos.  Sin  embargo,  cuando  hay  algun  autovalor  multiple  (como  en  este  caso)  hay  que 
escoger  los  autovectores  adecuadamente. 
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Los  autovalores  de  A son  las  rafces  de  la  ecuacion  caracteristica 


0 = | A — AI|  = (A  — 1)2(7  — A), 


es  decir,  son  Ai  = 7 y A2  = A3  = 1.  Un  autovector  x de  A asociado  al  auto  valor  A es  un 
vector  que  verifica  la  ecuacion 

(A  - AI)x  = 0 . 

Por  ejemplo,  para  Ai  = 7,  buscamos  un  vector  x = (xi,  x2,  x3)'  tal  que 


0 

0 

0 


2 2 \ / 1 0 0 

3 2-70  1 0 
2 3/  \ 0 0 1 


Xi 

X2 

X3 


lo  cual  equivale  al  sistema  de  ecuaciones 


0 = — 2a;  1 + X2  + X3, 

0 = x\  — 2x2  + X3. 


De  este  sistema  deducimos  que  un  autovector  x correspondiente  al  autovalor  Ai  = 7 debe 
cumplir  la  condicion  x\  = X2  = X3.  Por  ejemplo,  podrfamos  tomar  el  vector  (1,1,1)'.  Un  au- 
tovector normalizado  de  A correspondiente  al  autovalor  Ai  = 8 es,  pues,  ei  = (1,1,  l)'/y/3. 
Respecto  al  autovalor  A2  = 1,  la  ecuacion 

(A  — A2I)  x = 0 


implica 


x\  + x2  + x3  = 0. 


(1.2) 


Observemos  que  el  numero  de  condiciones  que  debe  cumplir  un  autovector  de  A es  rg(A),  el 
rango  de  A,  menos  la  multiplicidad  del  autovalor  correspondiente.  En  este  caso  hay  solo  una 
ecuacion,  pues  rg(A)  = 3 y A = 1 es  un  autovalor  doble.  Para  la  descomposicion  espectral 
es  necesario  que  todos  los  autovectores  e,;  sean  ortogonales  entre  si,  luego  debemos  buscar 
dos  vectores  que  verifiquen  la  condicion  (1.2)  y cuyo  producto  escalar  sea  cero.  Por  ejemplo, 
e2  = (1,  -1, 0 )'/y/2  ye3  = (1, 1, -2)'/y/6. 

Asf  pues  la  descomposicion  espectral  de  la  matriz  A es: 


1 

-1 

0 


(1, — 1,0)  + - 


1 

1 

-2 


(1, 1,-2)  + I 


1 

1 

2 


(1,1,2). 


Observation.  La  definition  1.1  admite  una  expresion  en  forma  matricial,  tal  y como  vimos 
en  el  Problema  1.7.  Dejamos  al  lector  que  escriba  la  descomposicion  espectral  de  A como  un 
producto  de  3 matrices  cuadradas. 
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PROBLEMA  1.10 


Dada  la  matriz 

/ 3 2 0 \ 

A = 2 3 0 

\ 0 0 3 / 

(a)  Calculense  sus  autovalores,  los  de  A2  y los  de  A-1 

(b)  Calculese  una  base  ortogonal  que  la  diagonalice. 


’ SOLUCION  ) 

Puesto  que  A es  una  matriz  simetrica,  el  teorema  de  descomposicion  espectral  asegura  que 
existen  una  matriz  ortogonal  T y una  matriz  diagonal  A tales  que  A = TAT'.  La  matriz 
A contiene  los  autovalores  de  A y la  matriz  T contiene  los  autovectores  de  A.  Ademas  se 
verifica  la  siguiente  propiedad: 

AP  = TAPT', 


para  p € Z. 

Mediante  Matlab,  obtenemos  la  descomposicion  espectral  de  A y comprobamos  la  propiedad 
anterior  para  p = 2y  p — —1 


A = [3  2 0;  2 3 0;  0 0 3]  ; 
[T, Lambda]  = eig(A); 

Los  resultados  que  se  obtienen  son: 


/ -0.7071 

0 

0.7071  \ 

( 1 

0 

0 \ 

T = 0.7071 

0 

0.7071 

’ A=  1 

0 

3 

0 

V 0 

1 

0 / 

^ 0 

0 

5 / 

Observad  que  las  columnas  de  T forman  una  base  ortogonal  que  diagonaliza  a la  matriz  A. 
Calculamos  los  autovalores  de  A2  y de  A-1  con: 

Lambda2  = eig(A*A) ; 

Lambdainv  = eig(inv(A) ) ; 

y obtenemos  que  los  autovalores  de  A2  son  1,  9 y 25  y los  de  A-1  son  1,  0.33  y 0.2.  Podeis 
comprobar  que  las  instrucciones: 

T*diag (Lambda2 ) *T' 

T*diag (Lambdainv) *T' 

permiten  recuperar  las  matrices  A2  y A-1  respectivamente. 
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PR0BLEMA1.il 


Considerese  la  matriz 


(a)  Calculense  los  autovalores  y autovectores  de  A. 

(b)  / Para  que  valores  de  a es  la  matriz  A definida  positiva? 


S0LUCI0N 


(a)  Los  autovalores  de  A son  Ai  = 2 + |cr|  y A2  = 2 — |a|.  Los  correspondientes  autovectores 
normalizados  son  ei  = (sgn(a),  l)'/\/2  y e2  = (1,  — sgn(a))'/\/2,  siendo  sgn(a)  = a/\a\  el 
signo  de  a. 

(b)  A es  definida  positiva  si  y solo  si  sus  autovalores  son  ambos  positivos,  es  decir,  si  |a|  < 2. 


PROBLEMA  1.12 


Considerese  la  siguiente  matriz 


/ 6 10 

A = 10  6 

\ 1 5 


(a)  Encuentrese  la  inversa  generalizada  de  Moore-Penrose,  A , de  A. 

(b)  Compruebese  que  se  cumple  la  propiedad 

AAA  = A. 


(c)  Compruebese  que  se  cumplen  las  propiedades 

(i)  A~AA^  = A-, 

(ii)  A~A  es  simetrica, 

(iii)  AA  es  simetrica. 


SOLUCION 


(a)  La  inversa  de  Moore-Penrose  es  aquella  matriz  A~  que  verifica  las  condiciones  (1.3)  y 
(i)-(iii)  del  apartado  (c).  La  matriz  A~  se  obtiene  a partir  de  la  descomposicion  en  valores 
singulares  de 

A = UD1/2V' , 
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es  decir. 


A-  = VD-1/2U' . 


La  funcion  Matlab  que  calcule  esta  inversa  podria  ser 

function  B = ginvMP (A) 

[U,D,V]  = svd (A, 0)  ; 

B = V*inv(D)*U'  ; 


Tambien  podemos  utilizar  directamente  la  funcion  B = 
El  resultado  es: 


A~  = 


-0.0442  0.1337 

0.0964  -0.0665 


pinv  (A)  implementada ya  en  Matlab. 

-0.0721  \ 

0.0871  ) ' 


(b)  La  expresion  (1.3)  es  la  propiedad  que  tiene  que  cumplir  cualquier  inversa  generalizada. 
Para  comprobar  con  Matlab  que  se  cumple  escribimos: 

B = ginvMP (A)  ; 

A * B * A 


(c)  Las  propiedades  (i)-(iii)  del  apartado  (c)  se  comprueban  escribiendo  las  instrucciones 
B*A*B,  B*A  y A*B.  El  primer  producto  proporciona  la  matriz  B y el  segundo  y tercero  dan, 
respectivamente: 

/ 0.6990  0.1368  0.4378  \ 

BA  = I,  A B = | 0.1368  0.9378  -0.1990  , 

\ 0.4378  -0.1990  0.3632  ) 

que  son  matrices  simetricas,  donde  I es  la  matriz  identidad  2x2. 


PROBLEMA  1.13 


Calculese  la  matriz  simetrica  asociada  a cada  una  de  las  siguientes  formas  cuadrdti- 
cas  y determmese  si  es  definida  positiva. 

(a)  Q(x\,  X2)  = 2xf  — 3xiX2  + ‘ix'2, 

(b)  Q(x i,X2,xs)  = x\  + X1X3  + 0.25.x|  + 1. 6x1X2  + 0.6x|  + 0. 8x2X3. 


SOLUCION  ) 


(a)  La  matriz  simetrica 


A = 


an  012 
ai2  022 


asociada  a Q es  la  que  verifica  Q(x)  = x'Ax,  donde  x = (xi,  X2)1  ■ Como 


x'Ax  = (xi,  X2)A 


Xi 

x2 


^ = Onxf  + 022X3  + 2ai2XiX2, 
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tenemos  que  an  = 2,  a22  = 3,  2 a\2  = —3.  Por  tanto. 


A = 


2 —3/2  \ 

-3/2  3 ) ' 


Para  comprobar  que  A es  definida  positiva,  en  Matlab  escribimos: 


A = [2  -3/2  ; -3/2  3]  ; 

lambda  = eig (A) ' 


que  nos  proporciona  los  autovalores  0.9189  y 4.0811,  ambos  positivos. 

(b)  La  matriz  simetrica 

(an  0,12  ai3 
a\2  022  023 

«13  023  O33 

asociada  a Q es  la  que  verifica  Q(x)  = x'Ax,  donde  x = (xi,  X2,  X3)' . Como 

x'Ax  = anx\  + 022X2  + 033X3  + 2oi2xiX’2  + 2013^1X3  + 2023X2X3, 


tenemos  que: 


A = 


1 0.8  0.5  \ 

0.8  0.6  0.4 

0.5  0.4  0.25  J 


Calculando  los  autovalores  de  A obtenemos  que  uno  de  ellos  es  negativo,  -0.0266,  por  lo  que 
A no  es  definida  positiva. 


PROBLEMA  1.14 


Sean  x = (x\,X2)'  un  vector  y Q(x)  = mx\  — 4xi  X2  + x\  una  forma  cuadrdtica, 
donde  m G M. 

(a)  Determinese  la  matriz  simetrica  A asociada  a Q(x). 

(b)  Determine  rise  los  valores  de  rn  para  que  A sea  definida  positiva. 

(c)  Hdiiense  los  autovalores  y los  autovectores  asociados  a A en  el  caso  de  que 
m = —2. 


( some  ion  ) 


(b)  A es  definida  positiva  si  y solo  si  todos  los  menores  principales  tienen  determinante 
positivo.  Por  tanto,  m > 4. 

(c)  Para  el  caso  m = —2,  los  autovalores  de  A son  Ai  = 2 y A2  = —3.  Los  autovectores 
normalizados  son  respectivamente  ei  = (—2,  l)'/y/E  y e2  = (1,  2)'/ y/b. 
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PROBLEMA  1.15 


Considerense  las  siguientes  matrices  simetricas  de  dimension  3 x 3: 

/ 3 1 0 \ / 0 0 0 \ 

A = I 1 3 0 ) y B = 0 0 0 . 

\ 0 0 3 / \ 0 0 2 / 

(a)  Decidase  el  signo  de  la  forma  cuadrdtica  g(x)  = x' Ax,  donde  x G JR3. 

(b)  Escribase  la  expresion  explicita  de  la  forma  cuadrdtica  Q(x)  = q(x)  + x'Bx. 
Sin  calcular  los  autovalores  de  A + B decidase  el  signo  de  Q(x). 


SOLUCION  ) 


(a)  Con  el  mismo  codigo  que  utilizamos  en  el  Problema  1.13  podemos  ver  que  los  autovalores 
de  A son  Ai  = 4,  A2  = 3 y A3  = 2.  Por  tanto,  A y su  forma  cuadratica,  q,  son  definidas 
positivas. 

(b)  La  forma  Q es  definida  positiva  porque  q lo  es  y B es  semidefinida  positiva.  Es  decir, 
puesto  que  g(x)  > 0 y x'Bx  > 0 para  x f 0,  entonces  se  verifica  que  Q(x)  > 0 para  x f 0. 
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CAPITULO 


Estadisticos  descriptivos 


Los  objetivos  de  este  capi'tulo  son  sencillos,  pero  fundamentales  (en  cuanto  a notacion 
y conceptos)  para  la  posterior  comprension  de  los  capi'tulos  restantes.  Aprenderemos 
a manejar  datos  multivariantes  de  manera  matricial  y a representarlos  graficamente. 
Calcularcmos  las  medidas  resumen  mas  utilizadas  de  localization,  dispersion  y de- 
pendencia  muestrales:  el  vector  de  medias,  la  matriz  de  vari an zas-co vari an zas  y la 
matriz  de  correlaciones.  A lo  largo  del  tenia  se  insiste  en  la  interpretation  intuitiva  de 
estos  estadisticos  y de  los  graficos.  Quedara  patente  la  utilidad  de  Matlab  para  el  trata- 
miento  de  datos  multidimensionales.  Tambien  se  hace  especial  hincapie  en  el  calculo 
de  combinaciones  lineales  de  los  vectores  observados. 


PROBLEMA  2.1 


Se  define  la  matriz  de  centrado  de  dimension  n como  H = I — ^1  V,  donde  I es  la 
matriz  identidad  de  dimension  nxny  1 es  un  vector  nxlde  unos.  La  utilidad  de  esta 
matriz  H radica  en  que,  como  su  nombre  indica,  se  usa  para  centrar  configuraciones 
de  datos:  si  X es  una  matriz  de  datos  de  dimension  nxp,  entonces  H X es  una  matriz 
cuyas  columnas  tienen  media  cero. 

UtiUcese  Matlab  para  comprobar  las  dos  siguientes  propiedades  de  la  matriz  de  cen- 
trado (tomando,  por  ejemplo,  n = 5): 

(a)  H es  idempotente,. 

(b)  rg(H)  = tr(H)  = n — 1. 

( some  ion  ) 

Construimos  la  matriz  de  centrado  de  dimension  n = 5: 
n = 5; 

H = eye (n) -ones (n, n) /n; 

y comprobamos  que  H"  2 coincide  con  H.  Las  instrucciones  trace  (H)  y rank  (H)  permiten 
obtener  su  traza  y su  rango,  que  deben  ser  n — 1 = 4. 
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PROBLEMA  2.2 


Los  datos  de  la  Tabla  2.1  corresponden  a chalets  construidos  por  diez  promotoras  que 
operan  a lo  largo  de  la  costa  espahola. 


Tabla  2.1. 

Diez  promotoras  de  la  costa  espanola  (Problema  2.2) 


Promotora 

Xi  =Duracion  media 
hipoteca  (anos) 

X2  =Precio  medio 
(millones  euros) 

Xs  =Superficie  media 
(m2)  de  cocina 

1 

8.7 

0.3 

3.1 

2 

14.3 

0.9 

7.4 

3 

18.9 

1.8 

9.0 

4 

19.0 

0.8 

9.4 

5 

20.5 

0.9 

8.3 

6 

14.7 

1.1 

7.6 

7 

18.8 

2.5 

12.6 

8 

37.3 

2.7 

18.1 

9 

12.6 

1.3 

5.9 

10 

25.7 

3.4 

15.9 

(a)  Dibujese  el  diagrama  de  dispersion  multiple  y comentese  el  aspecto  del  grdfico. 

(b)  Para  X \ y X-2  calculense,  respectivamente,  las  medias  muestrales  x\  y x'2,  las 
varianzas  muestrales  sn  y S22,  la  covarianza  entre  X\  y X2,  s \ 2,  y la  correla- 
cion  entre  ambas,  r 1 2 - Interpretese  el  valor  obtenido  de  r\2- 

(c)  Utilizando  la  matriz  de  datos  X y la  de  centrado  H definida  en  el  Problema  2.1, 
calculense  el  vector  de  medias  muestrales  x y la  matriz  de  covarianzas  mues- 
trales S.  A partir  de  esta  obtengase  la  matriz  de  correlaciones  R. 


SOLUCION  ) 


(a)  En  la  Figura  2.1  se  puede  ver  el  diagrama  de  dispersion  multiple  de  las  tres  variables.  Se 
observa  que  todas  ellas  estan  positivamente  correladas  entre  si  y que  el  grado  de  correlacion 
es  muy  alto.  Por  tanto,  una  sola  de  esas  variables  deberfa  poder  servir  para  predecir  cualquiera 
de  las  otras  dos. 

Las  instrucciones  en  Matlab  para  introducir  los  datos  y realizar  el  grafico  son 


8 . 7 

0 . 3 

3 . 1 

14.3 

0 . 9 

7 . 4 

18 . 9 

1 . 8 

9 . 0 

19 . 0 

0 . 8 

9.4 

20.5 

0 . 9 

8 . 3 

14 . 7 

1 . 1 

7.6 

18 . 8 

2 . 5 

12 . 6 

37.3 

2 . 7 

18 . 1 

12 . 6 

1 . 3 

5 . 9 

25 . 7 

3.4 

15 . 9] 

plotmatrix (X) 
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0 10  20 

Figura  2.1. 

Datos  de  chalets  construidos  por  promotoras  (Problema  2.2) 


(b)  Para  calcular  con  Matlab  los  valores  de 

1 to  1 10 

x\  = — ^2  xa  = 19.05  y = — ^ xi2  = 1.57 
U 2—1  U 2=1 

escribimos  el  siguiente  codigo: 

[n,p]  = size(X)  ; 
ml  = sum(X( : , 1) ) /n  ; 
m2  = sum (X ( : , 2 ) ) /n  ; 

o tambien 

ml  = mean (X ( : , 1 ) ) ; m2  = mean (X ( : , 2 ) ) ; 

Las  varianzas 

^ 10  1 10 

511  = 10  51^1  = 56'97  y S22  = Yo  X)  ^2  - ^2  = 0-89 

U 2=1  U 2=1 

se  calculan  con 

sll  = sum(X( : , 1) .*2) /n  - mlA2;  s22  = sum (X ( : , 2 ) . *2 ) /n  - m2^2; 
o bien  con 
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Sll  = var (X ( : , 1) , 1)  ; s22  = var (X ( : , 2 ) , 1 ) ; 

Por  ultimo,  con  las  instrucciones 

sl2  = sum (X ( : , 1) . *X ( : , 2) ) /n  - ml*m2  ; 
rl2  = sl2/sqrt (sll*s22)  ; 

obtenemos 


1 


Sl2  = 


10 


to 

^^xnXi2  — X\X2  = 5.17  y 

i=l 


r 12 


■S12 

v'slls22 


0.72. 


El  valor  de  la  correlacion  entre  las  variables  X\  y X2  es  positivo  y alto,  como  ya  permitfa 
deducir  el  diagrama  de  dispersion  del  apartado  (a). 

(c)  Los  valores  que  acabamos  de  calcular  en  el  apartado  (b)  para  medias,  varianzas,  covarian- 
zas  y correlaciones  se  pueden  obtener  matricialmente.  La  instruction  de  Matlab  que  calcula 
x = ±X'ln  = (19.32, 1.51, 9.76)'  es: 


m = X'  * ones (n, 1) /n  ; 


Para  comprobar  que 


, / 56.97  5.17  30.48  \ 

S = — X'HX  = 0.89  3.65 

n \ 18.76  ) 

escribiremos: 

H = eye (n) -ones (n,n) /n  ; 

S = X'*H*X/n  ; 

Por  ultimo,  la  matriz 

/ 1 0.71  0.95  \ 

R = D"1/2  ( 1 0.85  1 D 1/2, 

donde  D-1/2  = diag(s111^2,  s2 21^2,  Ssa1^2),  se  obtiene  mediante: 

d = diag(S) .*(-0.5)  ; 

R = diag(d)  * S * diag(d)  ; 

Podeis  comprobar  que  las  funciones  internas  de  Matlab: 

m = mean (X)  ; S = cov(X,l)  ; R = corrcoef (X) 

producen  los  mismos  resultados.  Si,  en  cambio,  escribimos  cov  (X)  Matlab  calcula  la  matriz 
de  dispersion  S = ^-X'HX,  que  a veces  se  denomina  matriz  de  varianzas-covarianzas 
corregida. 
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PROBLEMA  2.3 


La  contamination  por  mercurio  de  peces  de  agua  dulce  comestibles  es  una  amenaza 
directa  contra  nuestra  salud.  Entre  1990  y 1991  se  llevo  a cabo  un  estudio  en  53  logos 
de  Florida  con  elfin  de  examinar  losfactores  que  influfan  en  el  nivel  de  contamination 
por  mercurio.  Las  variables  que  se  midieron  fueron: 

X\  = numero  de  identification, 

X2  = nombre  del  logo, 

Xj  = alcalinidad  ( mg/l  de  carbonato  de  calcio ), 

X4  = pH, 

Xr,  = calcio  (mg/l), 

Xq  = clorofila  (mg/l), 

X7  = concentration  media  de  mercurio  ( partes  por  millon ) en  el  tejido  muscular 
del  grupo  de  peces  estudiados  en  cada  logo, 

Xg  = numero  de  peces  estudiados  por  logo, 

X9  = mmimo  de  la  concentration  de  mercurio  en  cada  grupo  de  peces, 

X10  = mdximo  de  la  concentration  de  mercurio  en  cada  grupo  de  peces, 

Xu  = estimation  (mediante  regresion)  de  la  concentration  de  mercurio  en  un  pez 
de  3 aiios  (o  promedio  de  mercurio  cuando  la  edad  no  estd  disponible), 

X12  = indicador  de  la  edad  de  los  peces. 

La  Tabla  2.2  contiene  los  datos  de  este  estudio,  disponible  en  la  pdgina  web 
http : //lib . st at . emu. edu/DASL . 

(a)  Representense  de  forma  conjunta  las  variables  X3 , Xq , X7  y vease  como  se 
modifica  su  dispersion  cuando  se  producen  transformations  ( lineales  y no  li- 
neales ) sobre  las  variables.  Considerense  como  medidas  de  dispersion  global 
la  traza  y el  determinante  de  la  matriz  de  covarianzas  . 

(b)  Dibujese  el  histograma  tridimensional  correspondiente  a X3  y X7.  Elfjanse 
sendas  transformations  no  lineales  para  estas  variables  de  entre  las  utilizadas 
en  el  apartado  anterior  y dibujese  el  histograma  tridimensional  de  las  variables 
transformadas. 


( some  ion  ) 

(a)  Supongamos  que  tenemos  un  fichero  de  texto,  de  nombre  mercurio  . txt  que  contiene 
los  datos  de  la  Tabla  2.2,  cuya  primera  fila  contiene  los  nombres  de  las  variables,  de  manera  que 
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Tabla  2.2. 

Datos  del  ejercicio  2.3  (http://lib.stat.cmu.edu/DASL/Datafiles/MercuryinBass.html) 


Xi 

x2 

x3 

x4 

ATs 

*6 

x7 

*8 

X9 

X\o 

Xn 

x12 

1 

Alligator 

5.9 

6.1 

3.0 

0.7 

1.23 

5 

0.85 

1.43 

1.53 

1 

2 

Annie 

3.5 

5.1 

1.9 

3.2 

1.33 

7 

0.92 

1.90 

1.33 

0 

3 

Apopka 

116.0 

9.1 

44.1 

128.3 

0.04 

6 

0.04 

0.06 

0.04 

0 

4 

Blue  Cypress 

39.4 

6.9 

16.4 

3.5 

0.44 

12 

0.13 

0.84 

0.44 

0 

5 

Brick 

2.5 

4.6 

2.9 

1.8 

1.20 

12 

0.69 

1.50 

1.33 

1 

6 

Bryant 

19.6 

7.3 

4.5 

44.1 

0.27 

14 

0.04 

0.48 

0.25 

1 

7 

Cherry 

5.2 

5.4 

2.8 

3.4 

0.48 

10 

0.30 

0.72 

0.45 

1 

8 

Crescent 

71.4 

8.1 

55.2 

33.7 

0.19 

12 

0.08 

0.38 

0.16 

1 

9 

Deer  Point 

26.4 

5.8 

9.2 

1.6 

0.83 

24 

0.26 

1.40 

0.72 

1 

10 

Dias 

4.8 

6.4 

4.6 

22.5 

0.81 

12 

0.41 

1.47 

0.81 

1 

11 

Dorr 

6.6 

5.4 

2.7 

14.9 

0.71 

12 

0.52 

0.86 

0.71 

1 

12 

Down 

16.5 

7.2 

13.8 

4.0 

0.50 

12 

0.10 

0.73 

0.51 

1 

13 

Eaton 

25.4 

7.2 

25.2 

11.6 

0.49 

7 

0.26 

1.01 

0.54 

1 

14 

East  Tohopekaliga 

7.1 

5.8 

5.2 

5.8 

1.16 

43 

0.50 

2.03 

1.00 

1 

15 

Farm-13 

128.0 

7.6 

86.5 

71.1 

0.05 

11 

0.04 

0.11 

0.05 

0 

16 

George 

83.7 

8.2 

66.5 

78.6 

0.15 

10 

0.12 

0.18 

0.15 

1 

17 

Griffm 

108.5 

8.7 

35.6 

80.1 

0.19 

40 

0.07 

0.43 

0.19 

1 

18 

Harney 

61.3 

7.8 

57.4 

13.9 

0.77 

6 

0.32 

1.50 

0.49 

1 

19 

Hart 

6.4 

5.8 

4.0 

4.6 

1.08 

10 

0.64 

1.33 

1.02 

1 

20 

Hatchineha 

31.0 

6.7 

15.0 

17.0 

0.98 

6 

0.67 

1.44 

0.70 

1 

21 

Iamonia 

7.5 

4.4 

2.0 

9.6 

0.63 

12 

0.33 

0.93 

0.45 

I 

22 

Istokpoga 

17.3 

6.7 

10.7 

9.5 

0.56 

12 

0.37 

0.94 

0.59 

1 

23 

Jackson 

12.6 

6.1 

3.7 

21.0 

0.41 

12 

0.25 

0.61 

0.41 

0 

24 

Josephine 

7.0 

6.9 

6.3 

32.1 

0.73 

12 

0.33 

2.04 

0.81 

1 

25 

Kingsley 

10.5 

5.5 

6.3 

1.6 

0.34 

10 

0.25 

0.62 

0.42 

1 

26 

Kissimmee 

30.0 

6.9 

13.9 

21.5 

0.59 

36 

0.23 

1.12 

0.53 

1 

27 

Lochloosa 

55.4 

7.3 

15.9 

24.7 

0.34 

10 

0.17 

0.52 

0.31 

1 

28 

Louisa 

3.9 

4.5 

3.3 

7.0 

0.84 

8 

0.59 

1.38 

0.87 

1 

29 

Miccasukee 

5.5 

4.8 

1.7 

14.8 

0.50 

11 

0.31 

0.84 

0.50 

0 

30 

Minneola 

6.3 

5.8 

3.3 

0.7 

0.34 

10 

0.19 

0.69 

0.47 

1 

31 

Monroe 

67.0 

7.8 

58.6 

43.8 

0.28 

10 

0.16 

0.59 

0.25 

1 

32 

Newmans 

28.8 

7.4 

10.2 

32.7 

0.34 

10 

0.16 

0.65 

0.41 

1 

33 

Ocean  Pond 

5.8 

3.6 

1.6 

3.2 

0.87 

12 

0.31 

1.90 

0.87 

0 

34 

Ocheese  Pond 

4.5 

4.4 

1.1 

3.2 

0.56 

13 

0.25 

1.02 

0.56 

0 

35 

Okeechobee 

119.1 

7.9 

38.4 

16.1 

0.17 

12 

0.07 

0.30 

0.16 

1 

36 

Orange 

25.4 

7.1 

8.8 

45.2 

0.18 

13 

0.09 

0.29 

0.16 

1 

37 

Panasoffkee 

106.5 

6.8 

90.7 

16.5 

0.19 

13 

0.05 

0.37 

0.23 

1 

38 

Parker 

53.0 

8.4 

45.6 

152.4 

0.04 

4 

0.04 

0.06 

0.04 

0 

39 

Placid 

8.5 

7.0 

2.5 

12.8 

0.49 

12 

0.31 

0.63 

0.56 

1 

40 

Puzzle 

87.6 

7.5 

85.5 

20.1 

1.10 

10 

0.79 

1.41 

0.89 

1 

41 

Rodman 

1 14.0 

7.0 

72.6 

6.4 

0.16 

14 

0.04 

0.26 

0.18 

1 

42 

Rousseau 

97.5 

6.8 

45.5 

6.2 

0.10 

12 

0.05 

0.26 

0.19 

1 

43 

Sampson 

11.8 

5.9 

24.2 

1.6 

0.48 

10 

0.27 

1.05 

0.44 

1 

44 

Shipp 

66.5 

8.3 

26.0 

68.2 

0.21 

12 

0.05 

0.48 

0.16 

1 

45 

Talquin 

16.0 

6.7 

41.2 

24.1 

0.86 

12 

0.36 

1.40 

0.67 

1 

46 

Tarpon 

5.0 

6.2 

23.6 

9.6 

0.52 

12 

0.31 

0.95 

0.55 

1 

47 

Tranord 

81.5 

8.9 

20.5 

9.6 

0.27 

6 

0.04 

0.40 

0.27 

0 

48 

Trout 

1.2 

4.3 

2.1 

6.4 

0.94 

10 

0.59 

1.24 

0.98 

1 

49 

Tsala  Apopka 

34.0 

7.0 

13.1 

4.6 

0.40 

12 

0.08 

0.90 

0.31 

1 

50 

Weir 

15.5 

6.9 

5.2 

16.5 

0.43 

11 

0.23 

0.69 

0.43 

1 

51 

Tohopekaliga 

25.6 

6.2 

12.6 

27.7 

0.65 

44 

0.30 

1.10 

0.58 

1 

52 

Wildcat 

17.3 

5.2 

3.0 

2.6 

0.25 

12 

0.15 

0.40 

0.28 

1 

53 

Yale 

71.8 

7.9 

20.5 

8.8 

0.27 

12 

0.15 

0.51 

0.25 

1 

los  datos  propiamente  dichos  empiezan  en  la  segunda  fila,  escritos  por  columnas  y separados 
uno  de  otro  mediante  tabulation.  Para  leer  los  datos  desde  Matlab  utilizaremos  la  funcion 
dlmread.  Observemos  que  las  dos  primeras  columnas  del  fichero  no  son  relevantes  para  los 
calculos  que  queremos  hacer,  por  lo  que  no  se  leeran.  Sin  embargo  hay  que  tener  en  cuenta 
que  Matlab  interpreta  que  un  fichero  de  texto  empieza  en  la  fila  0 columna  0.  Por  tanto,  el 
primer  dato  a leer  es  5.9,  que  se  encuentra  en  la  fila  1 columna  2,  y el  ultimo  dato  a leer  es  1, 
que  se  encuentra  en  la  fila  53  columna  11: 

M = dlmread (' mercurio . txt \t [1  2 53  11]); 

El  sfmbolo  ' \ t ' indica  que  los  datos  estan  separados  por  tabulation. 
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Solo  queremos  representar  de  forma  conjunta  las  variables  X3,  Xe,  X7,  que  son  las  colum- 
nas  1,  4,  5 de  la  matriz  M.  Asf  pues  construimos  una  matriz  X que  contenga  solamente  estas 
columnas: 


X = [M  ( : , 1)  M ( : , 4 : 5)  ] ; 
det (cov (X, 1) ) 
trace (cov (X, 1) ) 
plotmatrix (X) 

La  Figura  2.2  muestra  la  dispersion  de  las  columnas  de  la  matriz  X. 


150 
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50 
0 

200 
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50 
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1 

0.5 
0 

0 50  100  150  0 100  200  0 0.5  1 1.5 

Figura  2.2. 

Datos  de  contaminacion  por  mercurio  (Problema  2.3) 
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Consideremos  la  siguiente  transformation  lineal  sobre  X3  y X(j: 

Y3  = X3/1000,  Y6  = X6/1000, 

que  corresponde  al  cambio  de  unidades  de  medida  g/1  en  lugar  de  mg/1.  Y estudiemos  ahora  la 
dispersion  entre  Y3,Yq , X7. 

Y=  [X ( : , 1) /1000  X ( : , 2 ) /10 0 0 X ( : , 3 ) ] ; 
det (cov (Y, 1) ) 
trace (cov (Y, 1) ) 
plotmatrix (Y) 

La  Figura  2.3  muestra  la  dispersion  entre  las  columnas  de  la  matriz  Y.  Observad  que  si  no  se 
tienen  en  cuenta  las  unidades  de  medida,  las  formas  de  las  nubes  de  puntos  entre  las  Figuras 
2.2  y 2.3  son  muy  parecidas. 

Consideremos  ahora  las  siguientes  transformaciones  no  lineales  sobre  X3,  Xfj  y X7: 

W3  = log(X3),  W6  = log(Xe),  W7  = 
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Figura  2.3. 

Datos  de  contaminacion  por  mercurio.  Transformaciones  lineales  (Problema  2.3) 


r 
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que  intentan  simetrizar  los  datos,  y estudiemos  la  dispersion  entre  ellas: 

W= [log (X ( : , 1) ) log (X ( : , 2 ) ) sqrt (X ( : , 3 ) ) ] ; 
det  (cov  (W,  1)  ) 
trace (cov (W, 1) ) 
plotmatrix (W) 

La  Figura  2.4  muestra  la  dispersion  entre  las  columnas  de  la  matriz  W. 

La  Tabla  2.3  resume  las  medidas  de  dispersion  global  para  las  tres  matrices  X,  Y,  W: 

Tabla  2.3. 

Medidas  de  dispersion  global  para  las  matrices  del  Problema  2.3 


matriz 

tr(S) 

det(S) 

X 

2.3638e  + 003 

6.9503e  + 004 

Y 

0.1165 

6.9503e  - 008 

W 

3.1223 

0.0490 

(b)  Hemos  elegido  las  transformaciones  log(  Yy)  y ^ X7.  El  codigo  que  dibuja  los  histo- 
gramas  tridimensionales  de  la  Figura  2.5  se  detalla  a continuation  (Observation:  la  funcion 
hist3  de  Matlab  solo  esta  disponible  en  la  Toolbox  Statistics  de  la  version  7 y superiores). 
Suponemos  que  la  matriz  M es  la  misma  que  en  (a). 
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Figura  2.4. 

Datos  de  contaminacion  por  mercurio.  Transformaciones  no  lineales  (Problema  2.3) 

X = M(:,  [5,1]  ) ; 
figure ( 1 ) 
hist3 (X) 

ylabel ( ' x_3=alcalinidad' ) 
xlabel ( ' x_7=mercurio' ) 
view (50,50) 

Y = [sqrt (X ( : , 1) ) , log (X ( : , 2) ) ] ; 
figure  (2 ) 
hist3 (Y) 

ylabel ( ' log (x_3 ) ' ) 
xlabel ( ' x_7 A { 1/2 } ' ) 
view (50,50) 


Figura  2.5. 

Datos  de  contaminacion  por  mercurio.  Histograma  tridimensional  (Problema  2.3) 
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PROBLEMA  2.4 


Considerese  la  muestra  xi, . . . ,xn  de  vectores  de  MP.  Pruebese  que  la  matriz  de 
covarianzas 

1 n 

s = -E(*i-  x)(x*  - x); 

n r— ■ ' 


.v<?  puede  expresar  como 


1 

n 


n 

5>x'  _ xx'. 

i=l 


SOLUCION  ) 

Utilizando  la  propiedad  distributiva  de  la  multiplication  de  matrices  y que  la  traspuesta  de  la 
suma  es  la  suma  de  las  traspuestas,  tenemos  que 


n 

E(x*  - x)(x* - x)' 

i= 1 


n 

ElXi(Xi  - x)'  ~ x(xi  - x)'] 

i= 1 


n 

= 5>2x'  - x*x'  - xx'  + xx') 

i=  1 

n n n n 

i=  1 i=  1 i— 1 £=1 

n 

= x*x'  — nxx'  — nxx'  + nxx'. 

i= 1 


PROBLEMA  2.5 


Considerese  la  matriz  de  datos 

( -2  1 4 \ 

3 0-1 

5 1 2 

-13  6’ 

2-7  4 

v -1  0 -1  / 

que  recoge  n = 6 observaciones  de  un  vector  aleatorio  X = (X\ . X‘).  X:>)'. 

(a)  Calculense  el  vector  de  medias  x y la  matriz  de  covarianzas  muestrales  Sx. 
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(b)  Calculese  la  matriz  de  covarianzas  muestrales  de  los  datos  estandarizados  a 
media  cero  y varianza  unidad. 

(c)  Sea  el  vector  aleatorio  Y = ( Y\ , Y2),  donde  Y\  = —X\  + 2X2  — X:>  e 
Y2  = A'i  + X2.  Calculense  el  vector  de  medias  y y la  matriz  de  covarian- 
zas muestrales  Sy  de  Y.  Calculese  la  matriz  de  observaciones  de  Y mediante 
una  operacion  matricial  en  la  que  aparezca  la  matriz  de  datos  de  X. 

(d)  Calculese  la  matriz  de  covarianzas  del  vector  aleatorio  Z = (Z\ . Z2),  donde 

Zx  = Yx/VGy  Z2  = Y2/V2. 

(e)  Calculense  las  matrices  de  correlaciones  de  X,  Y,  Z y de  la  matriz  de  datos 
obtenida  en  el  apartado  ( b ). 


SOLUCION 


(a)  El  vector  de  medias  muestrales  de  X es 

1 / 6 6 6 \' 

X=-  I '^Jxli,'^2x2i,'^2x3i\  =(1,-0.33,2.33)'. 

\i=i  »= 1 »= 1 / 

La  matriz  de  covarianzas  muestrales  de  X es 

/ 6.33  -2.0000  -2.0000  \ 

Sx  = -2.00  9.8889  0.1111  . 

\ -2.00  0.1111  6.8889  j 

A continuation  indicamos  las  instrucciones  en  Matlab  que  sirven  para  calcular  estos  estadfsti- 
cos.  Sea  X la  matriz  de  datos,  que  supondremos  que  ya  tenemos  introducida,  y sean  m el  vector 
( fila)  de  medias,  H la  matriz  de  centrado  y Sx  la  matriz  de  covarianzas  . Entonces 

[n,p]  = size  (X)  ; 
m = ones (n, 1) ' *X/n; 

H = eye (n) -ones (n,n) /n; 

Sx  = X'*H*X/n; 

Las  instrucciones  internas  de  Matlab  m=mean  (X)  y Sx=cov  (X,  1)  proporcionan  los  mis- 
mos  resultados. 

(b)  Sean  H la  matriz  de  centrado , Xn  la  matriz  de  datos  y D , = diag(sn , S22 , S33)  la  matriz 
diagonal  que  contiene  la  diagonal  de  S„.  Entonces  la  matriz  de  datos  estandarizados  es 


-1.1921 

0.4240 

0.6350 

0.7947 

0.1060 

-1.2700 

1.5894 

0.4240 

-0.1270 

-0.7947 

1.0600 

1.3970 

0.3974 

-2.1200 

0.6350 

-0.7947 

0.1060 

-1.2700 
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con  matriz  de  covarianzas: 

/ 1.0000  -0.2527  -0.3028  \ 

SX0  = -0.2527  1.0000  0.0135  . 

\ -0.3028  0.0135  1.0000  ) 

Sean  H,  n y p los  calculados  en  (a).  Entonces  Sxo  se  obtiene  mediante: 

d = sqrt (diag (Sx) ) ; 

Std  = ones (n, 1) *d' ; 

X0  = (H*X) ./Std; 

SxO  = cov (XO , 1 ) ; 


(c)  Observemos  que  el  vector  Y se  expresa  como  Y = X C',  siendo 


Es  decir,  Y es  una  combinacion  lineal  de  X.  Por  tanto. 


y 


sy  = c sx  c'  = 


56.33  13.33  \ 

13.33  12.22  ) ’ 


Instrucciones  en  MATLAB: 


C = [-12  -1;  110]; 
Y = X*C' ; 
my  = m*C' ; 

Sy  = C*Sx*C ' ; 


La  primera  instruccion  calcula  los  valores  observados  de  Y.  Podeis  comprobar  que  mediante 
mean(Y)  ycov(Y,l)  se  llega  al  mismo  resultado. 

(d)  Observemos  que  el  vector  Z se  escribe  como  Z = X D',  donde 

/ -1/V6  2/V6  -1/V6  \ 

^ l/y/2  1/V2  0 )' 

cuyas  filas  coinciden  con  las  filas  de  la  matriz  C estandarizadas  a norma  unidad.  Procediendo 
como  en  el  apartado  (b),  obtenemos 


Sz  = D'  Sx  D = 


9.39  3.85  \ 
3.85  6.11  J ’ 
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En  Matlab  escribiremos: 

D = [-l/sqrt(6)  2/sqrt(6)  -l/sqrt(6) 
l/sqrt(2)  l/sqrt(2)  0] ; 

Z = X*D ' ; 

Sz  = D*Sx*D' ; 

(e)  Utilizaremos  las  mismas  instrucciones  que  en  el  apartado  (c)  del  Problema  2.2.  Si  11a- 
mamos  Rx,  Ry  y Rz  a las  matrices  de  correlaciones  de  X,  Y y Z,  y RxO  a la  matriz  de 
correlaciones  de  los  datos  estandarizados,  entonces: 

dx  = (diag (Sx) ) . ^ (-0.5)  ; 

Rx  = diag (dx) *Sx*diag (dx) ; 

dxO  = (diag (SxO ) ) . * ( -0 . 5)  ; 

RxO  = diag (dxO) *SxO*diag (dxO) ; 

dy  = (diag (Sy) ) . * ( - 0 . 5)  ; 

Ry  = diag (dy) *Sy*diag (dy) ; 

dz  = (diag (Sz) ) . * ( -0 . 5)  ; 

Rz  = diag (dz) *Sz*diag (dz) ; 

Observad  que  las  matrices  de  correlaciones  de  X y de  los  datos  estandarizados  coinciden  con 
la  matriz  de  covarianzas  de  estos  liltimos,  y que  las  matrices  de  correlaciones  de  Y y de  Z tam- 
bien  coinciden.  Comprobad  que  utilizando  la  instruction  interna  de  Matlab  Rx=corrcoef  (X) 
se  llega  a los  mismos  resultados. 


PROBLEMA  2.6 


Consideremos  las  n = 5 observaciones 

(l  6 \ 

3 8 

-2  7 , 

5 -3 

V 2 0/ 

de  un  vector  aleatorio  X = {X\,  X2)'.  Definimos  las  combinaciones  lineales  c'X  y 
b'X  donde  c = (—2, 1/  y b = (—1,  3)/. 

(a)  Calculando  los  valores  observados  de  las  combinaciones  lineales  en  cada  una 
de  las  filas  de  la  matriz  de  datos,  obtenganse  las  medias,  las  varianzas  y la 
covarianza  entre  c'X  y b'X. 

(b)  Obtenganse  los  estadisticos  pedidos  en  (a),  pern  utilizando  las  expresiones  ma- 
triciales  que  relacionan  los  momentos  muestrales  de  una  combinacion  lineal 
con  aquellos  < x y S ) de  X. 

(c)  Obtengase  el  vector  de  medias  muestral  del  vector  aleatorio  (Xf,  X%)'. 
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SOLUCION 


(a)  Los  valores  observados  de  las  combinaciones  c'X  y b'X  vienen  dados  por  Datosc  y 
Datosb  respectivamente.  La  media  muestral  de  los  valores  observados  de  c'X  es  me  y la  de 
los  valores  observados  de  b'X  es  mb.  La  varianza  muestral  de  c'X  es  vc  y la  de  b'X  es  vb. 
La  covarianza  entre  c'X  y b'X  es  covbc  (1,2). 


X = [ 1 6 ; 3 8 ; -2  7 ; 5 -3  ; 2 0]  ; 
b = [-1  ; 3]  ; C = [-2  ; 1]  ; 


Datosb  = X*b  ; Datosc  = X*c  ; 


mb  = mean (Datosb)  ; me  = mean (Datosc)  ; 

vb  = var (Datosb, 1)  ; vc  = var (Datosc , 1 ) ; 
covbc  = cov (Datosb, Datosc , 1)  ; 


(b)  El  vector  de  medias  muestrales  de  X es  x = (1.8, 3.6)'  y su  matriz  de  covarianzas  es 

f 5.36  -6.28  \ 

* " ^ -6.28  18.64  ) ’ 

La  media  muestral  de  c'X  es 

c'i  = <-2.1)(^)=0 

y,  analogamente,  la  media  muestral  de  b'X  es  b'x  = 9. 

La  varianza  muestral  de  c'X  es  c'Sc  = 65.2  y la  de  b'X  es  b'Sb  = 210.8.  La  covarianza 
muestral  entre  c'X  y b'X  es  c'Sb  = b'Sc  = 110.6.  A continuacion  se  pueden  ver  las 
instrucciones  de  Matlab  que  hacen  estos  calculos. 

m = mean(X)  ; S = cov(X,l)  ; 
mb  = b ' * m ' ; me  = c ' * m ' ; 
vb  =b'*S*b;  vc  = c ' * S * c ; 

covbcl2  = b'  * S * c ; 


(c)  El  vector  de  medias  muestral  de  (X3,  X|)'  viene  dado  por 


siendo  x-i3  el  elemento  (i.  j)  de  la  matriz  de  datos  X.  Para  calcularlo  con  Matlab,  escribimos: 

Y = X . a2  ; 
my  = mean(Y)  ; 
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Otra  posibilidad  es  recordar  que  la  varianza  muestral  correspondiente  a X\,  la  primera  com- 
ponente  de  X,  es: 


Sll 


i E4- 


Por  tanto, 

i 4 

- x ^ = sn  + x\  = 5.36  + 1.82  = 8.6. 

^ i- 1 


Analogamente,  si  S22  denota  la  varianza  muestral  de  X2,  tenemos  que 


1 ^ 

~ ^ x^2  — ^22  H-  ^2  = 18.64  4-  3.62  = 31.6. 

i=  1 


PROBLEMA  2.7 


Un  biologo  recoge  medidas  (en  mm.)  de  los  crdneos  en  dos  especies,  Ay  B,  de  ratones. 
Concretamente  observa  tres  variables  X\,  X-2  y X%  en  un  conjunto  de  ratones  de  los 
cuales  ha  = 50  son  de  la  especie  A y los  restantes  ns  = 60  son  de  la  especie  B. 


(a)  Denotemos  por  X 4 la  matriz  de  datos  observados  en  la  especie  A.  Si 


X^l50  = (25.5,14.1,11.3)' 

y 

/ 40.2  10.9  15.6  \ 

X'4X.4  = 10.9  13.7  14.5  , 

\ 15.6  14.5  20.1  / 

calculense  el  vector  de  medias  x4  y la  matriz  de  covarianzas  S_4  correspon- 
dientes  a esta  especie. 

(b)  Denotemos  por  X/j  la  matriz  de  observaciones  de  la  especie  B.  Si 

X'B160  = (26.3,15.5,10.0)' 

y 

/ 50.7  32.6  24.8  \ 

X'bXb  = 32.6  29.0  12.6  , 

V 24.8  12.6  35.8  ) 


calculense  las  medias  muestrales  x B \!  la  matriz  de  covarianzas  Sb  de  la  espe- 
cie B. 


(c)  Calculense  las  medias  muestrales  x y la  matriz  de  covarianzas  S para  la  totali- 
dad  de  los  n = 110  ratones. 
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{ SOLUCION  } 

(a)  Supongamos  que  los  datos  estan  ordenados  de  manera  que  los  50  primeros  son  los  de  la 
especie  A y los  60  ultimos  son  de  la  especie  B.  Entonces  tenemos  que 

( X>«  \ 


Por  tanto. 


X^o  - Ys 


i= 1 


1 1 

XA  = — X^lso  = I 0.3 

\ 0.2 


Por  otro  lado,  observemos  que 


X>*i  E 


50 


x.'axa  = £ 


%il%i2  / J %i2 


Luego 


Xi\Xi3  y ^ Xi2Xi3  y ^ Xffi 


0.3 

0.1 

0.1 

0.1 

0.1 

0.1 

0.1 

0.1 

0.1 

— X^Xa  - xax'a 


0.5 

0.1 

0.2 

0.1 

0.2 

0.2 

0.2 

0.2 

0.4 

Las  instrucciones  para  hacer  estos  calculos  en  Matlab  son  las  siguientes: 


nA  = 50  ; 

DatoAl  = [ 25.5,14.1,11.3  ] ' ; 

DatoA2  = [40.2  10.9  15.6 

10.9  13.7  14.5 

15.6  14.5  20.1  ] ; 

MediaA  = DatoAl  / nA  ; 

SA  = DatoA2  / nA  - MediaA  * MediaA'  ; 
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n = nA  + nB  ; 

Media  = (DatoAl  + DatoBl)/n  ; 

S = (DatoA2  + DatoB2)/n  - Media*Media'  ; 
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PROBLEMA  2.8 


La  Tabla  2.4  contiene  10  obsetyaciones  de  un  vector  X = (Xi,  X2,  X3,  X4)',  donde 
X 1 = Longitud  de  cabeza  del  primer  hijo  de  una  familia,  X2  = Anchura  de  cabeza 
de  ese  mismo  hijo,  X3  = Longitud  de  cabeza  del  segundo  hijo  de  la  misma  familia  y 
X 4 = Anchura  de  cabeza  de  este  segundo  hijo  (Fuente:  Frets  1921).  Dhndase  X de  la 
siguiente  manera: 


X = 


( Xi\ 

X2 

X3 

\xj 


(a)  Para  X : 1 -1  y X12-1  calculense,  respectivamente,  estimaciones  de  los  vectores  de 
esperanzas,  y -E(X^),  de  las  matrices  de  covarianzas,  V^r(X^)  y 

Var(X^),  y tambien  de  la  matriz  de  covarianzas  cruzadas  Cov(X^1),  X*2^). 


(b)  Dadas  las  matrices 


A = 


y b = ( -3  2 ) , 


calculense  estimaciones  de  E(AX^),  Var(BX^2'*)  y Cov(AX^\  BX^2-*). 


Tabla  2.4. 

Dimensiones  de  cabeza  de  dos  hermanos  (Frets  1921) 


Primer  hijo 

Segundo  hijo 

Longitud  cabeza 

Ancho  cabeza 

Longitud  cabeza 

Ancho  cabeza 

191 

155 

179 

145 

195 

149 

201 

152 

181 

148 

185 

149 

183 

153 

188 

149 

176 

144 

171 

142 

208 

157 

192 

152 

189 

150 

190 

149 

197 

159 

189 

152 

188 

152 

197 

159 

192 

150 

187 

151 
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( some  ion  ) 


(a)  Para  calcular  las  estimaciones  de  los  vectores  de  medias  utilizaremos  el  siguiente  codigo 
Matlab,  en  el  que  suponemos  que  ya  hemos  introducido  la  matriz  X de  datos  de  dimension 
10  x 4: 

MediaHi j ol  = mean (X ( : , [1,2])) 

MediaHi jo2  = mean (X ( : , [3,4])) 

o,  alternativamente,  tambien  podemos  hacer: 

Media  = mean(X)  ; 

MediaHijol  = Media ( 1 , [1 , 2 ] ) 

MediaHijo2  = Media(l,  [3,4]  ) 

Los  resultados  que  se  obtienen  son  x^1)  = (190, 151.7)',  x)2-*  = (187.9, 150)'.  Las  estimacio- 
nes de  las  matrices  de  covarianzas  se  calculan  mediante: 

S = COv(X,l)  ; 

VarianzasHi j ol  = S(  [1,2],  [1,2]) 

VarianzasHi j o2  = S([3,4],[3,4]) 

CovHi j olHi j 02  = S(  [1,2]  , [3,4]  ) 

y los  resultados  son: 


S(t) 

S(2) 


S(L2) 


73.4 

26.6  \ 

18.0  J 

65.1 

29.8  \ 

18.6  J 

37.8 

16.8  \ 

7.0 


(b)  Las  estimaciones  de  la  esperanza  E(AX*9)  y de  la  varianza  Var(BX(2))  son,  respec- 
tivamente,  Ax^  = (38.3,341.7)'  y BS^B'  = 302.6.  Por  ultimo,  la  estimacion  de  la 
covarianza  cruzada  Cov(AX^),  BX^2^)  es  AS^’^B'  = (-61.7900,-97.8)'.  Una  vez  in- 
troducidas  en  Matlab  las  transformaciones  lineales  A y B,  las  instrucciones  que  calculan  estos 
resultados  son: 

AMediaHijol  = A * MediaHijol' 

BVarianzasHi j o2  = B * VarianzasHi j o2  * B' 

CovAHi j olBHi j 02  = A * CovHi j olHij o2  * B' 
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PROBLEMA  2.9 


Considerese  el  vector  Y formado  solo  por  las  dos  componentes  X \ y Xo  del  Pro- 
blema  2.8  centradas  respecto  de  la  media  muestral  (xq . Xy/-  Representense  las  obser- 
vaciones  del  vector  Y,  y%,  para  i = 1, . . . , 10,  mediante  un  diagrama  de  dispersion.  A 
continuacion  considerese  el  vector  a = (15, 8/  y,  sobre  el  diagrama  de  dispersion, 
trdcese  (a  mano  o con  Matlab)  la  recta  de  direccion  a que  pasa  por  el  origen.  Mdr- 
quese  sobre  esta  recta  la  proyeccion  ortogonal  de  y,  sobre  a,  para  i = 1, . . . , 10, 
y denotese  por  li  cada  una  de  estas  longitudes.  Calculese  la  varianza  muestral  de 
las  longitudes  li,  i = 1, . . . , 10.  Si,  en  lugar  del  vector  a,  se  considera  el  vector 
b = (15,  — 15/,  i que  cambios  se  observan ? 


SOLUCION  ) 

Suponemos  ya  introducida  en  Matlab  la  matriz  de  datos  X que  contiene  las  dos  primeras  co- 
lumnas  de  la  Tabla  2.4.  Para  realizar  el  diagrama  de  dispersion  escribimos: 

Media  = mean(X)  ; 

[n,p]  = size(X)  ; 

Y = X-ones (n, 1) *Media  ; 

plot ( Y ( : , 1) , Y ( : , 2 ) , ' ok' , ' MarkerFaceColor ' , ' k' , ' MarkerSize ' , 7) 

xlabel ( ' y_l ' ) 

ylabel ( ' y_2 ' ) 

axis ( [-15  20  -15  20]  ) 

El  resultado  son  los  cfrculos  rellenos  de  la  Figura  2.6.  La  longitud  l,  de  la  proyeccion  de 
y;  = (yn,  y^)'  sobre  a = (ai,  (12)'  viene  dadapor^  = C\  yt\  +02  ya  (vease  el  Problema  1 .2), 
siendo  c = (ci,C2)/  = a/||a|j.  Analogamente,  se  obtendrfan  las  longitudes  para  las  proyec- 
ciones  de  y.(  sobre  el  vector  b.  Las  siguientes  instrucciones  permiten  realizar  los  calculos  en 
Matlab: 

a = [15; 8]  ; b = [15; -15]  ; 

c = a/norm (a) ; d = b/norm(b) ; 

La  = Y*C ; Lb  = Y*d; 
var (La) 
var (Lb) 

La  varianza  resultante  de  las  proyecciones  sobre  el  vector  a es  var  (La)  =92 .4  7,  mientras 
que  proyectando  sobre  b la  varianza  es  var  (Lb)  =21.23,  que  es  bastante  menor.  Para  anadir 
estas  proyecciones  al  grafico  anterior,  escribimos: 

Ya  = La*c' ; Yb  = Lb*d' ; 
hold  on 

plot (Ya ( : , 1) , Ya ( : , 2 ) , ' Ab' ) 
plot (Yb ( : , 1) , Yb ( : , 2 ) , ' *r ' ) 

Las  proyecciones  sobre  a y b aparecen  representadas  en  la  Figura  2.6  con  triangulos  y es- 
trellas,  respectivamente.  En  las  tecnicas  de  analisis  multivariante  que  se  exponen  a partir  del 
Capftulo  4 es  importante  tener  en  cuenta  las  consecuencias  de  elegir  distintas  direcciones  sobre 
las  que  proyectar  los  datos. 
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CAPITULO 


Distribuciones  multivariantes 


En  este  capi'tulo  se  presentan  diversos  conceptos  y herramientas  estadi'sticas  utiles  para 
describir  la  distribucion  de  un  vector  aleatorio:  vector  de  medias,  matriz  de  covarian- 
zas,  funcion  de  densidad,  ...  A lo  largo  del  tenia  se  hace  hincapie  en  las  distintas 
propiedades  de  los  momentos  de  un  vector  aleatorio  (por  ejemplo,  bajo  transformacio- 
nes  lineales  del  mismo). 

Tambien  se  trabaja  con  la  distribucion  mas  importante  en  el  contexto  multivaiiante,  la 
distribucion  normal.  Con  diversos  ejercicios  se  repasan  las  propiedades  que  caracte- 
rizan  esta  distribucion,  entre  otras  que  es  el  lmiite  al  que  converge  la  media  muestral 
(Teorema  Central  del  Lmiite).  Por  ultimo,  se  consideran  algunas  otras  distribucio- 
nes, como  la  T 2 de  Hotelling  , la  ley  de  Wishart  o la  Lambda  de  Wilks,  que  resultan 
esenciales  a la  hora  de  hacer  inferencia  sobre  datos  multivariados. 


PROBLEMA  3.1 


Sea  X un  vector  aleatorio  p-dimensional  de  media  fi  y matriz  de  varianzas-covarian- 
zas  I (la  matriz  identidad  de  dimension  p X p).  Dada  una  matriz  cuadrada  de  orden 
p,  A,  considerese  la  nueva  variable  Y = X'AX y demuestrese  que 

E(Y)  = tr(  A)  + n'Ap, . 


( SOLUC  ION  ) 

Si  denotamos  por  X = (Xi,  X2, . . . , Xp)'  y A = {ctij)i<i,j<p,  entonces 

p 

y = x'  a x = aij  xi  xj- 

i,j=  1 
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Por  tanto. 


E(Y)  = ]T  EiXiXj)  = Y a « £(X*2)  + 5]  E(x<xj )• 


i,  j = 1 

i # i 


Puesto  que  la  matriz  de  covarianzas  de  X es  la  identidad,  tenemos  que  E(Xf)  = 1 + /i| , para 
i = 1, . . . ,p,  y tambien  que  E(XiXj)  = E(Xi)  E(Xj)  = //,  /i;- , para  todo  i ^ j.  Entonces 


p p 

E(X)  = + X! 

i=l  iJ  = 1 

* 7*  J 


= aijEiEj  = tr(A)  + /x'A/r. 

£=1  i,j=l 


PROBLEMA  3.2 


Supongamos  que  X\,  X2,  A3  son  v.a.  independientes  con  varianza  unidad.  Sean 
Y\  = X 1 + X2  + A3,  I2  = Xi  — A2  <?  Y':>  = X\  — A3.  Calculense  las  matrices  de 
varianzas -covarianzas  y de  correlaciones  de  Y = (Yi,  Y2,  A3)'. 

SOLUCION  ) 

La  matriz  de  covarianzas  de  X es  Var(X)  = I,  la  matriz  identidad  de  dimension  3x3.  Puesto 
que  Y = A X,  siendo 

/ 1 1 1 \ 

A=  1 -1  0 , 

V 1 0-1  J 

la  matriz  de  varianzas-covarianzas  de  Y es 


/ 3 0 0 
Var(Y)  = A A'  =021 

V 0 1 2 


y la  matriz  de  correlaciones  es 


Corr(Y)  = 


1 0 0 

* : i 
° 2 1 
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PROBLEMA  3.3 


Sea  X = (X\,  X-2,  X3)'  un  vector  aleatorio  tridimensional.  Se  sate  que  el  vector 
Y = ( Y\ . V 2 . Y:>,)'  ha  sido  generado  del  siguiente  modo:  Y = B X,  donde 


f 1 0 1 

B = -1  1 1 

V 0 1—1 


es  una  matriz  no  singular.  Se  sate  tambien  que  -E(Y)  = (2, 1,0/  y que  la  matriz  de 
covarianzas  de  Y es 

/ 5 -i  0\ 

Var(Y)  = -1  2 -1  . 

V 0 -1  2) 

(a)  Hdllese  la  covarianza  entre  Z\  = Y2  — Y\  y Z2  = Y\  + I3. 

(b)  Calculense  (J  = E(X)  y X = Var(X),  la  matriz  de  covarianzas  de  X. 

(c)  Si  .v<?  define  Y = B (X  — /1)  ch«/  seria  E(Y)?  Como  es  la  formula  para 
hollar  ahora  Var(Y)  a partir  de  py  Eh?  ^Depende  de  p? 


SOLUCION 


Cov(Z1,Z2)  = (-1,1,0)  Var(Y)  (1, 0, 1)'  = —7 . 

(b)  Sabemos  que  Y = BX,  por  lo  que  tendremos  que  X = B 1 Y.  Por  tanto. 


p = B^1E(Y)  = 


2 -1  1 

1 1 2 

1 1 -1 


1 = 1 


1 / 10  4 1 

S = B 1 Var(Y)(B^1)'  = - 4 3 0 

3 \ 1 0 3 


(c)  Si  ahora  tenemos  Y = B (X  — p),  esto  implica  que 

E(Y)  = B(p  p)  = 0 y Var(Y)  = B Var(X)  B' . 


es  decir,  la  varianza  no  se  ve  afectada  por  traslaciones. 
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PROBLEMA  3.4 


Sea  X un  vector  con  distribution  uniforme  en  el  rectdngulo  [0,  2]  x [3, 4]. 

(a)  Especifiquese  lafuncion  de  densidad  de  X.  Calculense  E(X)  y Var(X). 

(b)  Sea  Xi, . . . , X30  una  muestra  aleatoria  simple  de  X y X = )T/i(l  i X,/30  la 
media  muestral  correspondiente.  Calculense  E(X)  y Var(X). 

(c)  Generese  con  Matlab  una  realization  de  la  muestra  del  apartado  anterior.  Cal- 
culense la  media  x v la  matriz  de  covarianzas  muestrales  S.  Dibujese  en  un 
grdfico  de  dispersion  la  muestra  y mdrquense  los  puntos  £(X)yx. 

(d)  Generense  con  Matlab  40  muestras  de  tamano  5,  calculense  sus  correspon- 
dientes  medias  muestrales  y dibujense  estas  en  un  grdfico  en  el  que  se  marque 
tambien  E(X).  Repltase  este  proceso  en  grdficos  distintos  para  40  muestras  de 
tamano  20  y otras  40  de  tamano  50.  £ Que  se  observa  ? 


’ SOLUCION  ) 


(a)  La  densidad  es 


f(x  i,x2)  = 


El  vector  de  esperanzas  de  X es  E (X) 


1/2,  sixe  [0,2]  x [3,4], 
0,  en  otro  caso. 

= (E(X1),E(X2)y,  donde 


/OO 

Xi  fi  {.Xi)  dXi  , 
-00 


para  * = 1,2,  siendo  f,  la  funcion  de  densidad  marginal  de  la  variable  aleatoria  Xt.  Puesto  que 
X\  y X-2  son  v.a.  independientes  entre  si  y con  ley  uniforme  en  los  intervalos  [0,  2]  y [3, 4], 
respectivamente,  E (X)  = (1,3.5)',  que  es  el  punto  central  del  rectangulo  y Cov(Xi,  X2)  = 0. 
Por  otro  lado,  Var(Xj)  = E(X?)  — E(Xi )2,  luego 


Var(X)  ~ 


0.33  0 

0 8.83 


(b)  E(X)  =E(X)y  Var(X)  = Var(X)/30. 

(c)  El  siguiente  codigo  resuelve  este  apartado  y genera  la  Figura  3.1. 
n = 3 0 ; p = 2 ; 

X = rand(n,p)  ; % Muestra  de  una  Unit [0 , 1] * [0 , 1] 

X = [2*X( : ,1) , 3+X (:, 2) ] ; % Muestra  de  Unit [0 , 2 ] * [3 , 4 ] 

m = mean (X)  ; % Media  muestral 

S = cov(X,l)  ; % Matriz  de  varianzas-covarianzas  muestrales 


www.FreeLibros.me 


DISTRIBUCIONES  MULTIVARIANTES 


41 


plot  (X( : ,1) ,X( : , 2 ) , 'o' , ' MarkerFaceColor ' , ' k' , . . . 

' MarkerEdgeColor ' , 'k'  ) 
axis ( [0  2 3 4] ) 
hold  on 

plot (m ( 1 ) ,m(2) , 'k*' , ' Markers ize ' , 8 ) 
hold  on 

plot (1,3.5, ' ko' , ' Markers ize' , 8 ) 


Figura  3.1. 

Diagrama  de  dispersion  de  muestra  uniforme  en  [0,  2]  x [3, 4]  (Problema  3.4) 


( d)  Se  observa  que,  a mayor  tamano  muestral,  menor  dispersion  de  la  media  muestral  y mejor 
estima  esta  la  esperanza  de  X.  Una  propuesta  de  codigo  es  la  que  sigue,  pero  retamos  al  lector 
a sustituir  los  bucles  for  por  operaciones  matriciales  (esto  reduce  el  tiempo  de  ejecucion). 
Los  graficos  resultantes  se  pueden  ver  en  la  Figura  3.2. 

N = 40  ; % Numero  de  muestras 

Vector_n  = [5,20,50]; 

for  i = 1 : length (Vector_n) 

n = Vector_n(i) ; % Tamanio  muestral 
MatrizMedias  = zeros (N, 2)  ; 

for  num  =1 : N 

X = [2*rand (n, 1) , 3+rand (n, 1) ] ; 

MatrizMedias (num, : ) = mean(X)  ; 

end 

figure ( i+1 ) 

plot (MatrizMedias ( : , 1 ) , MatrizMedias ( : , 2 ) , ' o' , . . . 

'MarkerFaceColor' , 'k' , 'MarkerEdgeColor'  , 'k'  ) 
axis ( [0  2 3 4]  ) 

title(['40  medias  muestrales  con  tamanio  muestral  ',... 

num2str (n) ] ) 
hold  on 

plot ( 1 , 3 . 5 , ' ko' , ' Markers ize ' , 8 ) 
hold  off 

end 
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9 ■ 

8 ■ 

7 ■ 

*• 

3.9 

3.8 

3.7 

3.9  ■ 
3.8  ■ 
3.7  ■ 

. • °\  •*  • 
4 * 

3.5 

1 

i: 

3 ■ • • • * 

3.3 

. 

3.3  ■ 

2 * • 

3I 1 1 1 

0 0.5  1 1.5 

3.2 

3.1 

3 

0.5  1 1.5 

3.2  ■ 

3.1  ■ 

3I 1 1 1 

0 0.5  1 1.5 

(a)  (b)  (c) 

Figura  3.2. 

Medias  muestrales  con  tamano  muestral  (a)  5,  (b)  20,  (c)  50  (Problema  3.4) 


PROBLEMA  3. 


Sea  X un  vector  aleatorio  de  distribucion  normal  con  media  fi  = (—1, 1, 0)'  y matriz 
de  covarianzas 

/I  0 1\ 

E = 0 3 1 

V 1 1 2 / 


(a)  Hdllese  la  distribucion  de  X\  + 2X2  — 3X3. 


/ 

(b)  Hdllese  un  vector  a(2xi).  tal  que  las  variables  X\  y X\  — a'  ( 
independientes. 

(c)  Calculese  la  distribucion  de  X3  condicionada  a X \ = x\  y X2  = x2. 


SOLUCION 


(a)  Se  verifica  que  Y = X 1 4-  2X2  — 3X3  = b'X  con  b = (1,  2,  —3)'.  Por  tanto, 

Y ~ N( b'p,  b'Sb)  = JV(1, 13). 


(b)  Por  la  hipotesis  de  normalidad  X\  v X-\  a'  ^ J son  independientes  si  y solo  si 

cov(ia,-»'(|))=o. 

Por  tanto,  debemos  hallar  a = (a-\ . a 2)'  tal  que  se  verifique  esta  ultima  condicion.  Puesto  que 
Cov  (x^Xi-a'^  J2  ^ =(l,0,0)S(l,-ai,-o2)'  = l-o2f 
deducimos  que  a2  = 1.  Por  ejemplo,  podemos  tomar  a = (0, 1)'. 


www.FreeLibros.me 


DISTRIBUCIONES  MULTIVARIANTES 


(c)  La  variable  X3\X\  = Xi,X2  = X2  sigue  una  distribucion  N([ic,  Ec),  donde 

'•«  = «+ c°v  (*»■  (£))  (M*.,*,))-1  ((*;)  - (;;;)) 

= Ai3  + (Cov(X3,X1),Cov(X3,X2))  (Var(X1,X2))-1  f ^ f 

= 0 + (1,1)  | ( 0 J ) ( *2-1  ) =5  (3^-1 +^2  + 2), 


= Var(X3)  — Cov  X3, 


( Var(X1, X2))_1  Cov  (*3,  (v) 


Sean  X],  X-2  y X3  tres  variables  aleatorias  con  distribucion  conjunta  normal  con 
vector  de  medias  fi  = (0,  0, 0/  y matriz  de  varianzas-covarianzas 


Calculese  la  distribucion  conjunta  de 

(a)  Y\  = Xl+X3eY2  = X2  + X3, 

(b)  Z\  = 3Xi  — 2X2,  Z2  = 2Xi  — X2  + X3  y Z3  = 3X3. 


SOLUCION 


(a)  Sean  X = (Xt , X2,  X3)'  y A la  transformation  lineal  siguiente: 


A = 


1 0 1 \ 
Oil)' 


Entonces  Y = (Yj . Y)'  = AX,  es  una  combination  lineal  de  X y,  por  tanto,  tiene  una 
distribucion  normal  de  parametros  E(Y)  = A /i  = (0,  0)'  y 


Var(Y)  = A S A'  = ^ J * ) . 
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(b)  Consideremos  ahora  la  transformacion  lineal  dada  por  la  matriz 


/ 3 -2  0 
B = 2 1 1 

\0  0 3 


y observemos  que  Z = (Z i,  Z2-  Z3)'  = BX.  Por  tanto,  Z sigue  una  distribucion  normal  de 
media  E(Z)  = 0 y 

/ 17  12  6 \ 

Var(Z)  = BSB  = 12  10  9 . 

\ 6 9 18  J 


PROBLEMA  3.7 


Sea  X = (Xi,  X2,  X3)'  un  vector  aleatorio  tridimensional  que  sigue  una  distribucion 
normal  con  media  fi  = (1,  0,  —2)'  y matriz  de  varianzas-covarianzas 


/ 2 -1  0 

S = -1  41 

\ 0 16 


(a)  Escribase  la  forma  cuadrdtica  Q(,X] . x-2-  xf  del  exponente  de  la  densidad  del 
vector  aleatorio  X. 


(b)  Escribase  la  matriz  de  covarianzas  cruzados  entre  ^ J y 

(c)  Encuentrese  la  correlation  entre  X\  y X3  condicionadas  por  X2  = X2- 

(d)  Hdllese  vnr(X\  \X‘>  = X2)  y compdrese  con  var(X  1). 


[ SOLUCION  J 

(a)  Sea  x = (xi,  X2,  X3)'  un  vector  de  R3.  Puesto  que 

, / 23  6 -1 

S"1  = — 6 12  -2 

40  1-1-2  7 


Q(x)  = --(x-/r)'S  1(x-/x)  = 


23 

6 

-1  \ 

IX  i-l 

6 

12 

-2 

X2 

-1 

-2 

7 / 

\ X3  + 2 
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(b) 


Cov(X1,X2) 

Cov(X3,X2) 


(c)  La  distribucion  de  (Xi,X3)'  condicionada  por  X2  = x2  es  una  normal  bivariante  con 
matriz  de  covarianzas 


£,= 


2 0 
0 6 


i 

23 


Por  tanto,  la  correlacion  entre  X\  y X3  condicionadas  por  X2  = x2  es 


corr(X1,X3\X2  = x2) 


1/4 

^7/4-23/4 


1 

V7- 23 


0.079. 


(d)  A partir  de  los  calculos  realizados  en  el  apartado  (c),  vemos  que 

var(X1|X2  = a;2)  = 7/4, 

que  es  menor  que  var(X i)  = 2.  Esto  es  razonable  puesto  que,  al  condicionar  a X2  = x2,  te- 
nemos  mayor  informacion  acerca  de  X \ y su  variabilidad  disminuye  respecto  a la  distribucion 
sin  condicionar. 


PROBLEMA  3.8 


Sean  Xi,  X2,  X3  y X4  vectores  aleatorios  independientes  con  distribucion  5]), 

donde  p = (1, 2)'  y 


E = 


1 

0.1 


0.1 

2 


(a)  Hdllese  la  distribucion  del  vector  aleatorio 


Y = JXl  - lx2  + 1x3  - 1X4. 


(b)  Escribase  y dibujese  ( con  Matlab)  la  densidad  del  vector  Y dado  en  (a). 

(c)  Calculese  la  correlacion  p correspondiente  a la  matriz  de  covarianzas  S.  Cdm- 
biese  el  valor  de  p y vuelvase  a dibujar  la  densidad  de  Y.  £ Que  cambios  se 
obsetyan? 
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SOLUCION 


(a)  El  vector  Y sigue  una  distribucion  normal  bivariante  de  media 


y matriz  de  covarianzas 


(b)  Como  E(Y)  = 0 la  funcion  de  densidad  de  Y = (Yi,  Y^)'  tiene  la  expresion 

/(y)  = exp  ))  • 

Para  dibujar  la  funcion  f (vease  la  Figura  3. 3. a)  escribimos: 

mu  = [ 1 ; 2 ] ; 

Sigma  = [ 1 0 . 1 ; 0 . 1 2 ] ; 

C = [ 1/4  , -1/4  , 1/4  , -1/4  ] ; 
mY  = sum ( c ) * mu  ; 

SY  = sum(c. a2)  *Sigma  ; 

yl  = [-2:0.1:2]  ; y2  = [ - 2 : 0 . 1 : 2 ] ; 

[Y1,Y2]  = meshgrid (yl , y2 ) ; 

[m,n]  = size(Yl)  ; f = zeros (m,n)  ; 

for  i = 1 : m 
for  j =1 : n 

y = [ Yl ( i , j ) ; Y2  ( i , j ) ] ; 

f(i,j)  = exp (-0 . 5* (y-mY) ' *inv (SY) * (y-mY) ) / . . . 
(2*pi*sqrt (det (SY) ) ) ; 

end 

end 

mesh (Yl , Y2 , f ) 
view (-57,40) 
xlabel ( ' y_l ' ) 
ylabel ( ' y_2 ' ) 


(c)  La  correlacion  que  nos  piden  es  p = 0.1/V2  ~ 0.071.  Si  cambiamos  su  valor  a,  por 
ejemplo,  p = 0.8  sin  alterar  las  varianzas  de  S,  la  matriz  pasa  a ser 


S = 


1 i/2 p \ 

V2p  2 ) 


Esta  matriz  la  introduciremos  mediante  el  codigo 


rho  = 0.8; 

NewSigma  = zeros ( size (Sigma) ) ; NewSigma (2 , 2)  = Sigma (2, 2)  ; 

NewSigma (1 , 1)  = Sigma(l,l)  ; 

NewSigma ( 1 , 2 ) = sqrt (Sigma ( 1 , 1) *Sigma ( 2 , 2 ) ) *rho  ; 

NewSigma (2 , 1)  = NewSigma ( 1 , 2 ) ; 
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y el  resto  se  hace  de  manera  analoga  al  apartado  (b).  En  la  Figura  3.3.b  se  encuentra  la  re- 
presentacion  grafica  de  esta  nueva  densidad  del  vector  Y.  Observad  como  varia  su  forma  en 
funcion  de  p. 


Figura  3.3. 

Densidad  de  un  vector  normal  para  (a)  p = 0.071  y (b ) p = 0.8.  (Problema  3.8) 


PROBLEMA  3.9 


Consideremos  la  muestra 


/ 2 6 
-4  8 
-2  9 
V -7  8 


-3 

7 

7 

2 


\ 


de  una  poblacion  A^/^,  £)  con  p,  y £ desconocidos. 

(a)  Calculese  el  estimador  de  maxima  verosimilitud  de  fi. 

(b)  Calculese  un  estimador  insesgado  de  £. 

(c)  Calculese  la  matriz  de  varianzas-covarianzas  muestrales. 


( SOLUC  ION  ) 


(a)  El  estimador  de  maxima  verosimilitud  de  //  es  la  media  muestral  x = (—2.75,  7.75,  3.25)'. 

(b)  Si  denotamos  por  H la  matriz  de  centrado,  un  estimador  insesgado  de  S es 


S = — X'HX 
n — 1 


14.2  -2.9  -8.8  \ 
-2.9  1.6  5.4 

-8.8  5.4  22.9  / 
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(c)  La  matriz  de  varianzas-covarianzas  muestrales  es 


S = ix'HX  = [ 

' 10.7 

-2.2 

-6.6 

-2.2 

1.2 

4.1 

n \ 

. -6.6 

4.1 

17.2 

PROBLEMA  3.10 


Sea  Xi, . . . , X§o  una  muestra  de  una  poblacion  con  media  p,  y matriz  de  covarian- 
zas  S. 

(a)  i Cudl  es  la  distribution  aproximada  de 

80 

X = ^TjQ/80  ? 

1=1 

(b)  Tomense  N = 200  muestras  de  tamano  n = 80  de  un  vector  X = (X\ , X-f' 
con  distribucion  uniforme  en  el  cuadrado  [0, 1]  x [0, 1].  Calculense  las  medias 
Xi, . . . ,x/v  de  estas  muestras  y dibujese  el  histograma  correspondiente  a las 
medias,  comprobando  si  se  asemeja  a una  densidad  normal. 


SOLUCION  ) 


(a)  Por  el  Teorema  Central  del  Lfmite  el  vector  X sigue  aproximadamente  una  distribucion 
normal  de  media  p.  y matriz  de  covarianzas  S/75. 

(b)  El  siguiente  codigo  dibuja  el  histograma  pedido. 

N = 200  ; 
n = 8 0 ; 

MatrizMedias  = zeros (N, 2)  ; 
for  i = 1 : N 

muestra  = rand (n, 2)  ; 

MatrizMedias ( i ,: ) = mean (muestra)  ; 

end 

hist3 (MatrizMedias)  ; 

Probablemente  el  histograma  obtenido  no  se  parezca  excesivamente  a una  densidad  normal 
salvo  en  la  aparente  unimodalidad  y simetrfa  (vease  la  Figura  3.4).  Por  ello  es  interesante 
tomar  valores  de  N y n bastante  mayores  para  comprobar  la  convergencia  a la  normal. 
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Figura  3.4. 

Histograma  de  medias  de  una  uniforme  (Problema  3.10) 


PROBLEMA3.il 


Sean  Xj,  X-2  y X%  las  niveles  de  solvencia  de  tres  buncos  espanoles.  Supongamos  que 
la  distribucion  conjunta  de  los  tres  niveles  es  N^(p,  S)  con  p = (0.7, 0.8, 0.9)'  y 


Consideremos  un  nivel  de  solvencia  medio  para  los  tres  buncos  que  se  obtiene  me- 
diant e el  promedio  W = (A'i  + X2  + X3 ) /3. 

(a)  Calculese  la  distribucion  del  nivel  de  solvencia  medio  W. 

(b)  Encuentrese  la  distribucion  de  (X\,  X2)'  condicionada  a que  W vale  1. 

(c)  2,  Son  X2  y W independientes? 


( SOLUC ION  ) 

(a)  Dado  que  W = ^(1, 1,  1 )(X-\ . X2,  X^)',  se  tiene  que  W sigue  una  normal  de  media 
|(1, 1,  l)p  = 0.8  y varianza  ^(1, 1, 1)S(1, 1, 1)'  = |. 
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(b)  Observemos  que 


donde 


(x1,x2,wy  = A(x1,x2,x3y, 


100 

A = 10  10 

ill 
3 3 3 


es  una  combination  lineal  de  (X\ , X2,  X3)' . Por  tanto,  ( X\ , X2,  W)'  sigue  una  distribution 


con 


A p = (0.7, 0.8, 0.8)' 


2 -1  f 

ASA' = |-1  2 1 

III 

3 3 3 

La  distribution  de  (Xi,  X2)'\W  = 1 es  iV2(/xc,  Xlc),  con  /zc  = (0.9, 1)'  y 

E,=  ^ 5 ^ 


3 \ — 4 5 


(c)  A partir  de  la  expresion  obtenida  en  el  apartado  (b)  para  la  matriz  de  covarianzas  del 
vector  (Xi,X2,  W)' , se  tiene  que 

Cov(X2,W)  = 1/3^0, 

es  decir,  X2  y W no  son  independientes. 


PROBLEMA  3.12 


Razona  si,  en  tu  opinion,  los  datos  que  aparecen  representados  en  el  diagrama  de 
dispersion  multiple  de  la  Figura  3.5  pueden  provenir  de  una  distribucion  normal  mul- 
tivariante. 


SOLUCION  ) 

Una  propiedad  de  la  normal  multivariante  es  que  sus  marginales  univariantes  son  tambien 
normales.  Si  la  muestra  representada  en  el  grafico  proviniera  de  una  poblacion  normal,  los 
histogramas  de  las  marginales  univariantes  deberfan  exhibir  propiedades  (como  la  simetrfa) 
propias  de  una  normal  y esto  no  sucede  para  ninguna  de  las  cinco  variables  representadas. 
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60  80  100 


Figura  3.5. 

Diagrama  de  dispersion  multiple  (Problema  3.12) 


PROBLEMA  3.13 


Con  algunos  programas  de  ordenador  solo  se  pueden  generar  muestras  normales  uni- 
variantes.  Supongamos,  sin  embargo,  que  deseamos  generar  una  muestra  de  un  vector 
bidimensional  Y = (Yi,  con  distribucion  iV2 (/x,  £),  donde 

n = 

£ _ f <711 

V a22 

y p denota  la  correlacion  entre  Y\  e Y 2-  Entonces  podemos  recurrir  al  procedimiento 
que  explicamos  a continuacidn. 
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(a)  Con  la  orden  randn  de  Madab,  que  solo  genera  obsetyaciones  normales  uni- 
variantes  e independientes  entre  si,  y para  un  tamano  muestral  n a elegit ; gene- 
re  se  una  muestra 


Xu 

X\2 

X21 

X22 

Xnl 

Xn2 

de  un  vector  X = (X\ . X-y  )'  con  distribucion  X‘>  (0. 1). 

(b)  Ahora  consideremos  las  siguientes  transformaciones  lineales  de  X 

Yi  = pi  + y/a^Xi 

Y‘1  = b‘2  + \fYn{pX\  + y/l  — P2X2). 

Demuestrese  que  Y = ( Y\ . Y))'  sigue  una  distribucion  X). 

(c)  Elijanse  unos  valores  concretos  para  p,  on,  022  y p ■ Utilizando  la  combinacion 
lineal  (3.2),  generese  con  Matlab  una  muestra  de  Y a partir  de  la  muestra  (3.1 ) 
obtenida  en  (a). 


{ SOLUCION  ) 

(a)  Puesto  que  las  dos  componentes  de  X son  independientes  generamos  sendas  muestras 
independientes  entre  si  y de  tamano  n de  la  normal  estandar: 

n = 100  ; 

X = randn (n, 2)  ; 


(b)  Observemos  que 
siendo 


Y = p + AX , 


A = V^n  0 

s/°Yip  x/^221/1  _ P2 


Por  tanto,  como  X sigue  una  distribucion  normal,  el  vector  Y tambien.  Ademas 

E(  Y)  = p + A£(X)  = p 

y 

Var(Y)  = Var(AX)  = AA'  = S . 
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(c) 


mu  = [ 2 ; 1 ] ; 

sigma_ll  = 1 ; sigma_22  = 1.5  ; 
rho  = 0.6  ; 

A = [sqrt (sigma_ll)  0 

sqrt ( sigma_22 ) *rho  sqrt ( sigma_22 ) *sqrt ( 1 -rho^2 ) ] ; 

Y = ones (n, 1)  * mu'  + X*A'  ; 


PROBLEMA  3.14 


Siguiendo  el  esquema  del  Problema  3.13,  generaremos  muestrcis  de  unci  normal  tridi- 
mensional. Para  ello  elfjase  un  tamaiio  muestral  n y generese  una  muestra 


/ Xn  Xu  213  \ 
221  222  223 

\ 2ni  Xn2  2n3  J 


(3.3) 


de  X ~ AT3(0, 1).  A continuacion  fijemos  la  matriz  de  correlaciones 


/ 1 0.9  0.7  \ 

p=  0.9  1 0.8 

V 0.7  0.8  1 ) 


Decfdase  cudl  es  la  combinacion  lineal  Y = AX  de  X tal  que  p = Var(Y).  A partir 
de  esta  matriz  A y de  la  muestra  (3.3)  generada,  calculense  los  valores  obsetyados 
de  Y.  Calculese  la  matriz  de  correlaciones  muestral  de  Y.  R,  y verifiquese  si  esta 
proximo  o no  a la  poblacional  p. 

Indication:  UtiUcese  la  descomposicion  espectral  de  la  matriz  de  correlaciones, 

p = BDB'. 


( some  ion  ) 

Observemos  que  basta  tomar  A = BD1  2.  El  codigo  que  nos  piden  es 

n = 10000  ; 

X = randn ( n , 3 ) ; 

rho  = [ 1 0.9  0.7  ; 0.9  1 0.8  ; 0.7  0.8  1 ] ; 

[B,D]  = eig(rho)  ; 

A = B * sqrt (D)  ; 

Y = X * A'  ; 

R = corrcoef (Y)  ; 
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PROBLEMA  3.15 


Sea  /x  un  vector  p x 1 y E una  matriz  p x p simetrica  y definida  positiva.  Ffjese  un 
valor  de  py  generense  muestras  de  tamaho  n de  una  normal  Np(p,  X)  para  distintos 
valores  de  n.  Para  cada  muestra  obtenganse  el  vector  de  medias  muestrales,  x,  y la 
matriz  de  covarianzas  muestrales,  S,  y compruebese  que  a medida  que  aumenta  n,  los 
valores  de  x y S se  van  acercando  a /x  v X,  respectivamente. 

Indication: 

El  vector  X = (X{,  X-2, . . . , Xp)'  tiene  ley  normal  p-variante  si  existen  p variables 
aleatorias  independientes  con  ley  N(  0, 1),  Y\,  Y), . . . ,Yp,  tales  que 

X = /x  + A Y,  (3.4) 

donde  Y = {Y\ , Y2, . . . , Yp)' , /x  = (p,\ , P2 , ■ ■ ■ , Pp)'  y A es  una  matriz  pxp.  Si  las  p 
columnas  de  A no  son  linealmente  independientes,  alguna  de  las  X j puede  expresarse 
como  combination  lineal  de  las  otras;  en  caso  contrario,  se  trata  de  una  distribucion 
p-variante  no  singular. 

Si  el  vector  X verifica  (3.4),  entonces 

E(X)  = /x,  Var(X)  = A'  A, 

y se  dice  que  X ~ Np(fi.  X),  donde  X = A'  A es  definida  positiva  si  A es  regular. 
Por  ejemplo,  A puede  ser  la  matriz  de  Cholesky  de  X ( ver  Pena  2002 ),  que  calculamos 
en  Matlab  con  la  orden  A = chol  (Sigma) . 


SOLUCION  ) 


Una  posible  solucion  del  problema  consiste  en  construir  una  funcion  Matlab  que  calcule  el 
vector  de  medias  y la  matriz  de  covarianzas  para  una  muestra  de  tamano  n generada  siguiendo 
la  indicacion  anterior.  Para  poder  llamar  a la  funcion  dentro  de  Matlab,  esta  debe  guardarse  en 
un  fichero  con  el  mismo  nombre  de  la  funcion  y extension  m,  en  este  caso,  nmult . m. 


% funcion  [m, S] =nmult (mu, A, n) 


% entradas : mu  es  el  vector  pxl  de  medias  poblacionales , 

% A es  una  matriz  cuadrada  pxp,  de  manera  que  la 

% matriz  de  covarianzas  poblacionales  es  Sigma=A'A, 

% n es  el  tamanio  muestral, 


% salidas: 


m es  el  vector  de  medias  muestrales, 

S es  la  matriz  de  covarianzas  muestrales. 


function  [m,S]  = nmult (mu, A, n) 

% generacion  de  una  muestra  p-variante  N(0,ld) 
[p,p]  = size (A) ; 

Y = randn (n, p) ; 
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% generacion  de  una  muestra  p-variante  N(mu,A'A) 
u = ones (n, 1) ; 

X = u*mu' +Y*A; 

% vector  de  medias  y matriz  de  covarianzas 
m = mean (X) ; 

S = cov (X, 1)  ; 

Dentro  de  Matlab,  y por  ejemplo  para  p = (2, 3, 4)',  n = 500, 1000,  5000  y 


haremos: 

mu  = [2  3 4]; 

A = [1  -1  1;  - 1 1 0;  0 1 - 1 ] ; 

[m_500 , S_500]  = nmult (mu, A, 500 ) 

[m_1000 , S_1000]  = nmult (mu, A, 1000 ) 

[m_5  0 0 0, S_5  000]  = nmult (mu, A, 5000 ) 

y compararemos  m_5  0 0,  m_10  0 0,  m_50000  con  p y S_50  0,  S_10  0 0,  S_5000  con 
X = A'  A,  respectivamente. 


PROBLEMA  3.16 


Una  distribution  muy  relacionada  con  la  ley  normal  multivariante,  y que  es  el  andlogo 
multivariante  de  la  ley  x2>  es  la  distribution  Wishart.  Dados  Xi, . . . ,X„  vectores 
aleatorios  i.i.d.~  Np(0,  X),  la  matriz  p X p 

n 

Q = ^XiX'~Wp(S,n) 

i=  1 

sigue  una  ley  Wishart  con  pardmetro  de  escala  S y n grados  de  libertad. 

Dadas  las  variables  aleatorias  Z Np( 0, 1)  y Q WP(I,  n)  estocdsticamente  inde- 

pendientes,  la  variable  aleatoria 

T 2 = n Tl  Q_1  Z ~ T2(p,n) 

sigue  una  ley  T2  de  Hotelling  con  p y n grados  de  libertad.  Si  p = I,  entonces 
T2(l,  n)  es  el  cuadrado  de  una  variable  aleatoria  con  ley  t de  Student  y n grados  de 
libertad.  En  general,  T2(p , n)  es  proportional  a una  F de  Fisher 

— — T2(p,n ) = F(p,n  — p+  1).  (3.5) 

np 

La  variable  T 2 se  utiliza  de  manera  andloga  a la  ley  t de  Student,  en  contrastes  sobre 
medias  multivariantes. 

Para  p y n fijos,  generese  una  muestra  de  tamaho  N de  una  ley  T2(p,n)  de  Hote- 
lling. Representense  los  resultados  mediante  un  histograma. 
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{ SOLUCION  } 

Sea  Xi,  X2, . . . , Xn  una  muestra  de  vectores  i.i.d.  con  distribution  Np( 0, 1).  Puesto  que 


x ~ Np  0,  - I 


nS  ~ Wp( I, n — 1), 

tenemos  que 

(n  — 1)  x'  S^1  x ~ T2(p,  n — 1). 

Podemos  construir  una  funcion  Matlab  que  genere  muestras  de  tamano  N de  una  ley  T2  (p,  n)  de 
la  siguiente  manera: 


% funcion  randT2 


% Esta  funcion  genera  una  muestra  de  tamanio  N de  una  ley 
% Ta2  de  Hotelling  con  p y n grados  de  libertad. 

function  t=randT2 (p,n,N) 

n = n+1; 
for  i = 1 : N 

X = randn (n, p) ; 
m = mean (X) ; 

S = cov (X , 1) ; 

t ( i , 1 ) = (n- 1 ) *m*inv (S) *m' ; 

end 

% numero  de  intervalos  en  el  histograma 
if  N<10^4 

k = sqrt (N) ; 
else 

k = 1+3 . 22*logl0 (N) ; 

end 

int  = 0 :max ( t ) /k : max ( t ) ; 
hist (t, int) 

h = findobj (gca, 'Type' , 'patch' ) ; 

set (h, ' FaceColor' , ' c' , ' EdgeColor' , ' b' ) 

Por  ejemplo,  para  p = 4,  n = 100,  N = 1000,  dentro  de  Matlab  utilizaremos  la  orden 
t=randT2 (4,100,1000) 

La  Figura  3.6  contiene  el  histograma  de  frecuencias  absolutas. 
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Figura  3.6. 

Histograma  de  una  T2(4, 100)  para  tamano  muestral  N = 1000  (Problema  3.16) 


PROBLEMA  3.17 


Si  A ~ Wp(E,a)  y B ~ Wp(X,  b)  son  independientes,  X es  regular  y a > p,  la 
variable  ale  at  or  ia 


tiene  una  ley  Lambda  de  Wilks , A (p,  a,  b),  con  pardmetros  p,  ay  b. 

La  ley  A no  depende  del  pardmetro  X de  A y B,  par  lo  que  es  suficiente  considerarla 
para  X = I.  Tiene  la  misma  distribucion  que  un  producto  de  b v.a.  independientes  con 
distribucion  Beta,  es  decit ; si  L ~ A (p,  a,  b)  entonces 


b 

L = Ui,  donde  ut  ~ Beta 
i=l 

Generese  una  muestra  de  tamano  N de  una  ley  A de  Wilks.  Representense  los  resulta- 
dos  mediante  un  histograma. 


a + i — p p 
2 ’2 


( SOLUC ION  ) 
Sean 


Xi,X2,  ■ • • , x„x  ^ 

^ Np(p,x,I) 

Y1,Y2,...,Y„y  - 

~ np(Hy,  I) 

dos  muestras  independientes  de  vectores  aleatorios  i.i.d.  Puesto  que 

A = nx  S,y  ~ Wp( I,  rix  - 1) 
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% Esta  funcion  genera  una  muestra  de  tamanio  N de  una  ley 
% Lambda  de  Wilks  con  parametros  p,  a,  b.  (Atencion:  a>=p) . 


function  L = randwilks (p, a, b, N) 
nx  = a+1;  ny  = b+1; 

% los  vectores  de  medias  se  generan  a partir  de  uniformes,  pero 
% tambien  podrian  introducirse  como  argumentos  de  la  funcion. 
mux  = rand(l,p);  muy  = 10*rand ( 1 , p) ; 
ux  = ones (nx,l) ; uy  = ones (ny, 1) ; 


for  i = 1 : N 

% generacion  de  la  primera  muestra  de  normales 
Zx  = randn(nx,p) ; 

X = ux*mux+Zx; 

A = nx*cov (X, 1) ; 

% generacion  de  la  segunda  muestra  de  normales 
Zy  = randn(ny,p); 

Y = uy*muy+Zy; 

B = ny*cov (Y, 1) ; 

% obtencion  de  la  Lambda  de  Wilks 
L(i,l)  = det (A) /det (A+B)  ; 

end 

% numero  de  intervalos  en  el  histograma 
if  N<10^4 

k = sqrt (N) ; 
else 

k = 1+3 . 22*logl0 (N) ; 

end 

int  = 0 :max (L) /k : max (L) ; 
hist (L, int) 

h = findobj (gca, 'Type' , 'patch' ) ; 

set (h, ' FaceColor' , ' c' , ' EdgeColor' , ' b' ) 

Por  ejemplo,  para  p = 4,  a = 19,6  = 24,  dentro  de  Matlab  llamaremos  a la  funcion 

L= randwilks (4, 19,24, 1000) 


La  Figura  3.7  contiene  el  histograma  de  frecuencias  absolutas. 
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Histograma  de  una  A(4, 19,  24)  para  tamano  muestral  N = 1000  (Problema  3.17) 


PROBLEMA  3.18 


La  Tabla  3. 1 contiene  las  medidas  de  5 variables  biometricas  sobre  gorriones  hembra, 
recogidos  casi  moribundos  despues  de  una  tormenta.  Los  primeros  21  sobrevivieron 
mientras  que  los  28  restantes  no  lo  consiguieron.  Las  variables  son  X\  = longitud 
total,  X2  = extension  del  ala,  X3  = longitud  del  pico  y de  la  cabeza,  X4  = longitud 
del  humero  y X5  = longitud  del  estemon. 

Realicense  comparaciones  de  medias  y de  covarianzas  entre  el  grupo  de  supervivien- 
tes  y el  de  no  supervivientes. 

Tabla  3.1. 

Medidas  biometricas  sobre  gorriones  (Problema  3.18) 


Supervivientes 

No  supervivientes 

X 

X 

X 

X 

X 

X 

X 

X 

X 

X 

156 

245 

31.6 

18.5 

20.5 

155 

240 

31.4 

18.0 

20.7 

154 

240 

30.4 

17.9 

19.6 

156 

240 

31.5 

18.2 

20.6 

153 

240 

31.0 

18.4 

20.6 

160 

242 

32.6 

18.8 

21.7 

153 

236 

30.9 

17.7 

20.2 

152 

232 

30.3 

17.2 

19.8 

155 

243 

31.5 

18.6 

20.3 

160 

250 

31.7 

18.8 

22.5 

163 

247 

32.0 

19.0 

20.9 

155 

237 

31.0 

18.5 

20.0 

157 

238 

30.9 

18.4 

20.2 

157 

245 

32.2 

19.5 

21.4 

155 

239 

32.8 

18.6 

21.2 

165 

245 

33.1 

19.8 

22.7 

164 

248 

32.7 

19.1 

21.1 

153 

231 

30.1 

17.3 

19.8 

158 

238 

31.0 

18.8 

22.0 

162 

239 

30.3 

18.0 

23.1 

158 

240 

31.3 

18.6 

22.0 

162 

243 

31.6 

18.8 

21.3 

160 

244 

31.1 

18.6 

20.5 

159 

245 

31.8 

18.5 

21.7 

161 

246 

32.3 

19.3 

21.8 

159 

247 

30.9 

18.1 

19.0 

157 

245 

32.0 

19.1 

20.0 

155 

243 

30.9 

18.5 

21.3 

157 

235 

31.5 

18.1 

19.8 

162 

252 

31.9 

19.1 

22.2 

156 

237 

30.9 

18.0 

20.3 

152 

230 

30.4 

17.3 

18.6 

158 

244 

31.4 

18.5 

21.6 

159 

242 

30.8 

18.2 

20.5 

153 

238 

30.5 

18.2 

20.9 

155 

238 

31.2 

17.9 

19.3 

155 

236 

30.3 

18.5 

20.1 

163 

249 

33.4 

19.5 

22.8 

163 

246 

32.5 

18.6 

21.9 

163 

242 

31.0 

18.1 

20.7 

159 

236 

31.5 

18.0 

21.5 

156 

237 

31.7 

18.2 

20.3 

159 

238 

31.5 

18.4 

20.3 

161 

245 

32.1 

19.1 

20.8 

155 

235 

30.7 

17.7 

19.6 

162 

247 

31.9 

19.1 

20.4 

153 

237 

30.6 

18.6 

20.4 

162 

245 

32.5 

18.5 

21.1 

164 

248 

32.3 

18.8 

20.9 

www.FreeLibros.me 


PROBLEMAS  RESUELTOS  DE  ESTADISTICA  MULTIVARIANTE 


Llamamos  X e Y a las  matrices  de  datos  del  grupo  de  supervivientes  y del  de  no  supervivien- 
tes,  respectivamente.  Mediante  Matlab  calculamos  los  vectores  de  medias  y las  matrices  de 
covarianzas  de  cada  grupo 


mx=mean(X) ; my=mean(Y) ; Sx=cov(X,l) ; Sy=cov(Y,l) ; 
y obtenemos: 


mx= [157 

.3810 

241 . 0000 

31.4333 

18 .5000 

20 .8095] 

Sx  = [10 

. 5215 

8 .6667 

1.4825 

0.8286 

1.2249 

8 

. 6667 

16 .6667 

1 . 8190 

1 . 2476 

0 . 8381 

1 

.4825 

1 . 8190 

0 .5060 

0 . 1800 

0.2283 

0 

. 8286 

1 . 2476 

0 . 1800 

0 . 1676 

0 . 1262 

1 

.2249 

0.8381 

0.2283 

0 . 1262 

0 . 5475] 

my= [158 

.4286 

241 . 5714 

31.4786 

18 . 4464 

20 . 8393] 

Sy= [14 . 

5306 

16 .5765 

2 . 1628 

1 .6837 

2 . 8260 

16  . 

5765 

31.3878 

3 .2765 

2 . 8449 

3 . 9204 

2 . 

1628 

3 .2765 

0 .7024 

0.4528 

0.5391 

1 . 

6837 

2 . 8449 

0 . 4528 

0.4189 

0 .4878 

2 . 

8260 

3.9204 

0 . 5391 

0 .4878 

1 .2738] 

Comparacion  de  covarianzas.  Supondremos  que  X es  una  muestra  aleatoria  simple  de 
tamano  rix  de  una  ley  normal  multivariante  X ~ Ns(nx,  Sx)  y que  Y es  otra  muestra 
aleatoria  simple  independiente  de  la  anterior  y de  tamano  riy  de  una  ley  normal  multivariante 
Y ~ JV5(/ir,Sy).  Queremos  contrastar  la  hipotesis  de  igualdad  de  covarianzas,  es  decir: 

H0  : Ex  = Sr  = E (3.6) 

Utilizaremos  el  contraste  de  la  razon  de  verosimilitudes,  cuyo  estadfstico  es 

, _ \Sx\nx/2\SY\nY/2 

Ar  |S|n/2 

donde  Sy  y Sy  son  las  matrices  de  covarianzas  muestrales  de  cada  grupo,  n = rix  + nY  y S 
es  la  matriz  de  covarianzas  comiin,  que  se  obtiene  mediante  la  siguiente  ponderacion: 

s _ nx  Sx  + nY  Sy 
nx  + nY 

Bajo  la  hipotesis  nula  dada  por  (3.6),  tenemos  que 

-21og(Afi)  ~ x2q, 

donde 

q={g-  l)p(p+  l)/2, 

g es  el  numero  de  grupos  y p es  el  numero  de  variables. 
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Para  implementar  este  contraste  mediante  Matlab  y teniendo  en  cuenta  que 

-21og(Afl)  = n log  | S | - (n*log|S*|  + nY  log  |Sy|).  (3.7) 


escribimos: 

nx  = 21  ; ny  =28  ; n = nx+ny  ; 

S = (nx*Sx+ny*Sy) /n  ; 

logR  = n*log (det (S) ) - (nx*log (det (Sx) ) +ny*log (det (Sy) ) ) 
percentil  = chi2inv ( 0 . 95 , 15 ) 
p_valor  = l-chi2cdf (logR, 15) 


El  valor  que  obtenemos  para  el  estadfstico  (3.7)  es  logR  = 12.5322.  Rechazaremos  la 
hipotesis  (3.6)  si  el  valor  de  este  estadfstico  pertenece  a la  region  crftica  [x\-a,  +oo),  donde 
Xi-a  es  el  percentil  (1  — a)  100%  de  una  yf5.  Para  un  nivel  de  signification  a = 0.05  la  ins- 
truction chi2inv  (0.95,15)  calcula  este  percentil.  Tambien  podemos  calcular  el  p-valor 
del  contraste  mediante  l-chi2cdf  (logR,  15)  y comparar  este  valor  directamente  con  el 
nivel  de  significacion.  En  ambos  casos,  concluimos  que  no  podemos  rechazar  la  hipotesis  (3.6), 
y por  tanto,  consideraremos  que  las  matrices  de  covarianzas  poblacionales  son  iguales. 

Comparacion  de  medias.  Suponiendo  igualdad  de  covarianzas,  queremos  contrastar  la 
hipotesis 

H0  ■ /Ay  = /ry.  (3.8) 

Dos  posibles  formas  de  resolver  este  contraste  son: 

(a)  utilizando  el  estadfstico  basado  en  la  distribucion  7' 2 de  Hotelling  o 

(b)  utilizando  el  estadfstico  basado  en  la  distribucion  A de  Wilks. 

(a)  Sean  x e y los  vectores  de  medias  muestrales.  El  estadfstico  siguiente 

T2  = ^-(x-y)S-(x-y/ 
nx  + ny 

tiene  una  ley  T2  de  Hotelling  T2(p,  nx  + ny  — 2).  La  relation  (3.5)  entre  las  leyes  T 2 de 
Hotelling  y F de  Fisher  asegura  que  el  estadfstico 

p = nx+ny-p-  1 2 

(nx  + nY  -2  )p 

sigue  una  distribucion  F(p,nx  + ny  — p — 1).  Si  llamamos  T2  y F a estos  estadfsticos, 
resolvemos  el  contraste  mediante: 

T2  = nx*ny/n* (mx-my) *inv (S) * (mx-my) ' ; 

F = (nx+ny-p-1) /( (nx+ny) *p) *T2 
percentil  = f inv ( 0 . 95 , p , nx+ny- 1 ) 
p_valor  = 1 - fcdf (F, p , nx+ny-p-1 ) 
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Puesto  que,  para  un  nivel  de  signification  a = 0.05,  F=  0 . 5 1 6 7 no  esta  contenido  en  la  region 
crftica  [2.4085,  +oo),  concluimos  que  no  se  puede  rechazar  la  hipotesis  (3.8).  De  manera 
equivalente,  observando  el  p-valor  asociado  a este  valor  de  F,  p-valor=0 . 7622,  tambien 
concluimos  que  no  existen  diferencias  significativas  entre  el  grupo  de  supervivientes  y el  de 
no  supervivientes. 

(b)  Consideremos  el  estadfstico  siguiente 

A |W|  |W| 

|B  + W|  |T|  ’ 

donde  W = nx  Sy  + ny  Sy  es  la  matriz  de  dispersion  dentro  de  los  grupos  (within), 

B = nx  (x  - z)'(x  - z)  + rty  (y  - z)'(y  - z) 

es  la  matriz  de  dispersion  entre  los  grupos  (between),  T = W + B es  la  matriz  de  dispersion 
total  y z = (nx  x + rty  y)  / n es  el  vector  de  medias  global. 

Bajo  la  hipotesis  nula  (3.8)  el  estadfstico  A sigue  una  ley  Lambda  de  Wilks 

A (p,n-g,g-  1), 

siendo  g el  numero  de  grupos.  La  aproximacion  asintotica  de  Rao  da  una  equivalencia  asinto- 
tica  entre  la  distribution  A de  Wilks  y la  ley  F de  Fisher.  La  funcion  Matlab  wilkstof  . m 
calcula  esta  aproximacion. 

% funcion  wilkstof 

% Esta  funcion  calcula  la  aproximacion  asintotica  de  Rao 
% de  la  distribucion  Lambda  de  Wilks,  L(p,a,b), 

% hacia  la  distribucion  F(m,n) . 

% [F,  m,  n]  =wilkstof  (L,  p,  a,  b) 

% entradas : L es  el  valor  de  L(p,a,b) 

% p,  a,  b son  los  grados  de  libertad 

% salidas:  F es  el  valor  de  la  F(m,n) 

% m,  n son  los  grados  de  libertad 

function  [F,m,n]  = wilkstof (L, p, a, b) 

alpha  = a+b- (p+b+1 ) /2 ; 

beta  = sqrt ( (p^2*b^2 -4 ) / (pA2+bA2 - 5 ) ) ; 

gamma  = (p*b-2)/4; 

m = p*b; 

n = alpha*beta-2*gamma; 

% se  redondea  n al  entero  mas  proximo 
if  n-floor (n) <0 . 5 
n = floor  (n)  ; 
else 

n = floor (n) +1 ; 

end 

F = (l-L^ (1/beta) )/ (LA (1/beta) )*n/m; 
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Implementemos  este  segundo  contraste  mediante  Matlab.  Empezamos  calculando  el  vector  de 
medias  global  y las  matrices  de  dispersion  dentro  de  los  grupos,  entre  grupos  y total: 

mz  = (nx*mx+ny*my) /n; 

W = nx*Sx+ny*Sy; 

B = nx* (mx-mz) ' * (mx-mz) +ny* (my-mz) ' * (my-mz) ; 

T = W+B; 

El  estadfstico  A de  Wilks  se  obtiene  haciendo: 

Lambda  = det (W) /det (T) 

[F,m,n]  = wilkstof (Lambda, 5 , 47 , 1 ) 
percentil  = f inv ( 0 . 95 , m, n) 
p_valor  = 1 - f cdf (F, m, n) 

Los  valores  obtenidos  son 

Lambda  = 0.9433,  F = 0.5167  (m=5,n=43), 
percentil  = 2.4322,  p_valor  = 0.7622 

Dado  que  el  valor  de  F no  esta  contenido  en  la  region  critica  [2.4322,  +oo),  no  podemos 
rechazar  la  hipotesis  nula  de  igualdad  de  medias. 


PROBLEMA  3.19 


En  unafdbrica  de  zumos  se  disena  el  siguiente  procedimiento  de  control  de  calidad.  Se 
toma  una  muestra  piloto  (vease  la  Tabla  3.2)  de  n = 50  extracciones  de  zumo  cuando 
el  proceso  de  fabricacion  funciona  correctamente  y en  ella  se  mide  la  concentration 
de  p = 11  aminoacidos,  X = (X\ , . . . , Xu)'.  Supongase  que  X sigue  una  distribu- 
cion  normal.  A continuacion  cada  dia  se  obsetyan  estas  mismas  variables  con  objeto 
de  detector  algun  cambio  significativo  en  la  calidad  del  proceso  (vease  Tabla  3.3). 
Supongase  que  estas  sucesivas  observaciones,  y*,  i = 1, . . . , 10,  son  independientes 
de  la  muestra  piloto  y entre  si. 

Construyase  un  grdfico  de  control  para  estos  nuevos  diez  dias  como  se  indica  a conti- 
nuacidn.  En  primer  lugar  calculense  la  media  x y la  matriz  de  covarianzas  S para  la 
muestra  piloto.  A continuacion  para  la  observacion  y j construyase  el  estadfstico 

r2(i)  = ^-y(y*  - ^),s_1(y*  - *) 

que  deberia  seguir  una  T2(p , n — I ) si  la  distribucion  de  y,  es  la  misma  que  la  de  la 
muestra  piloto. 

Representense  secuencialmente  los  valores  de  T2{i)  en  un  grdfico  y mdrquese  en  el 
un  limite  de  control  LC  = ^n~_}pP  Fa ( p , n — p),  siendo  a el  nivel  de  significacion  que 
deseemos  fijar  (a  = 0.05,  por  ejemplo).  Pdrese  el  proceso  de  fabricacion  el  primer 
dia  i que  una  obseiyacion  y estefuera  de  la  region  de  control,  es  decir,  y j > LC. 
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Tabla  3.2. 

Concentraciones  de  1 1 aminoacidos  en  50  zumos  (Problema  3.19) 


XI 

X2 

X3 

X4. 

X5 

XQ 

X7 

X8 

X9 

xio 

Xll 

0.480 

5.234 

2.620 

2.857 

0.803 

13.897 

0.326 

0.902 

0.164 

0.183 

4.155 

0.245 

1.312 

2.115 

8.077 

0.974 

9.227 

0.252 

2.703 

-0.006 

-0.061 

1.995 

0.276 

3.402 

2.527 

5.447 

0.957 

13.474 

0.299 

2.341 

0.094 

0.113 

3.541 

0.482 

6.554 

2.631 

5.134 

0.671 

12.333 

0.259 

1.473 

0.216 

0.112 

3.941 

0.400 

4.011 

2.528 

3.716 

0.805 

10.382 

0.266 

0.697 

0.201 

0.159 

4.361 

0.336 

4.001 

3.083 

4.626 

0.904 

7.834 

0.156 

0.898 

0.130 

0.061 

2.444 

0.379 

3.366 

2.099 

6.142 

0.977 

17.366 

0.384 

2.451 

0.204 

0.063 

3.177 

0.369 

4.550 

2.242 

3.609 

0.672 

12.353 

0.291 

0.975 

0.158 

0.201 

3.185 

0.396 

5.479 

2.231 

4.264 

0.786 

15.248 

0.244 

1.318 

0.064 

0.116 

3.989 

0.325 

3.573 

2.446 

5.087 

0.708 

10.791 

0.183 

1.500 

0.075 

0.122 

3.675 

0.404 

4.195 

3.226 

4.959 

0.948 

14.880 

0.460 

0.910 

0.151 

0.280 

5.071 

0.367 

4.756 

2.891 

4.264 

0.799 

13.443 

0.270 

0.927 

0.195 

0.194 

3.932 

0.340 

3.640 

3.075 

4.937 

0.821 

13.782 

0.296 

1.659 

0.214 

0.107 

3.507 

0.281 

2.872 

2.299 

4.543 

0.926 

8.921 

0.205 

0.901 

0.072 

0.102 

2.567 

0.373 

4.212 

2.769 

5.014 

1.060 

15.577 

0.288 

1.664 

0.175 

0.095 

3.788 

0.356 

3.629 

3.435 

4.694 

0.843 

11.503 

0.253 

1.249 

0.106 

0.198 

3.147 

0.426 

5.087 

2.797 

3.029 

0.758 

11.412 

0.311 

0.912 

0.175 

0.154 

3.759 

0.262 

2.722 

3.439 

6.223 

1.018 

8.324 

0.233 

1.200 

0.083 

0.108 

3.065 

0.422 

5.769 

1.948 

4.525 

0.576 

15.151 

0.342 

1.282 

0.014 

0.087 

4.773 

0.242 

2.074 

3.090 

6.822 

0.987 

10.655 

0.274 

1.858 

0.065 

0.072 

2.754 

0.288 

3.413 

3.338 

5.562 

1.054 

9.265 

0.276 

1.830 

0.181 

0.071 

2.710 

0.409 

4.701 

3.340 

5.531 

1.237 

13.800 

0.274 

1.598 

0.159 

0.102 

3.032 

0.382 

4.362 

2.588 

3.941 

0.779 

14.441 

0.265 

1.480 

0.213 

0.147 

3.372 

0.277 

3.261 

2.730 

4.335 

0.747 

7.909 

0.181 

1.014 

0.102 

0.108 

2.910 

0.416 

3.511 

2.822 

5.128 

0.992 

15.695 

0.298 

1.864 

0.268 

0.108 

4.097 

0.238 

2.840 

3.180 

6.392 

1.293 

9.059 

0.209 

1.529 

0.120 

0.043 

3.000 

0.544 

6.523 

3.333 

3.431 

0.759 

13.712 

0.334 

0.423 

0.128 

0.240 

5.209 

0.404 

4.119 

2.689 

4.599 

0.744 

13.960 

0.264 

1.241 

0.099 

0.126 

4.185 

0.384 

4.126 

2.440 

5.626 

0.965 

11.960 

0.224 

1.647 

0.203 

0.086 

3.102 

0.290 

2.823 

2.731 

6.063 

0.688 

7.677 

0.217 

1.343 

0.065 

0.073 

3.250 

0.598 

5.807 

2.525 

4.633 

0.889 

16.131 

0.368 

1.462 

0.221 

0.169 

4.544 

0.337 

4.067 

2.902 

4.826 

0.772 

14.203 

0.343 

1.577 

0.167 

0.074 

3.355 

0.403 

4.327 

2.660 

4.993 

0.863 

14.668 

0.402 

1.720 

0.125 

0.091 

3.617 

0.241 

4.281 

2.984 

4.369 

0.828 

9.670 

0.243 

1.036 

0.201 

0.105 

3.089 

0.412 

4.038 

3.731 

4.341 

0.971 

12.550 

0.244 

1.197 

0.135 

0.180 

3.309 

0.154 

1.840 

3.533 

6.902 

1.308 

8.954 

0.190 

2.047 

0.091 

0.018 

1.608 

0.352 

5.170 

2.945 

2.187 

0.866 

11.566 

0.306 

0.765 

0.194 

0.165 

2.959 

0.288 

3.336 

3.430 

5.054 

0.896 

10.608 

0.258 

1.017 

0. 104 

0.175 

2.689 

0.447 

5.060 

3.240 

5.462 

0.937 

18.099 

0.339 

1.762 

0.196 

0.164 

3.649 

0.420 

5.828 

2.898 

4.121 

0.793 

14.167 

0.347 

1.133 

0.180 

0.199 

4.181 

0.492 

5.230 

2.116 

3.516 

0.584 

16.289 

0.374 

1.241 

0.262 

0.188 

4.687 

0.385 

4.707 

2.350 

4.655 

0.882 

15.452 

0.357 

1.789 

0.208 

0.153 

3.213 

0.354 

4.626 

2.854 

4.885 

0.753 

14.250 

0.273 

1.332 

0.072 

0.098 

3.228 

0.244 

3.112 

3.245 

6.687 

1.095 

11.960 

0.240 

2.001 

0.177 

0.080 

2.440 

0.221 

2.715 

2.848 

5.216 

0.978 

6.625 

0.137 

1.202 

0.075 

0.015 

1.833 

0.374 

2.819 

2.694 

5.560 

0.804 

10.830 

0.268 

1.472 

0.069 

0.137 

2.838 

0.416 

3.943 

2.908 

6.660 

1.076 

14.812 

0.313 

2.033 

0.173 

0.069 

3.716 

0.356 

3.874 

2.739 

4.778 

0.894 

11.158 

0.215 

1.099 

0.149 

0.093 

3.510 

0.410 

4.898 

2.362 

3.565 

0.630 

11.763 

0.342 

0.783 

0.119 

0.169 

4.037 

0.246 

2.761 

2.914 

4.860 

0.799 

5.649 

0.168 

1.192 

0.016 

0.069 

2.180 

Tabla  3.3. 

Concentraciones  de  aminoacidos  en  10  nuevos  zumos  (Problema  3.19) 


yi 

2/2 

2/3 

2/4 

2/5 

2/6 

2/7 

2/8 

2/9 

2/10 

2/11 

1 

0.275 

3.693 

2.785 

6.812 

1.086 

12.206 

0.262 

2.152 

0.091 

0.106 

2.851 

2 

0.295 

3.401 

2.594 

5.903 

0.964 

9.945 

0.189 

1.719 

0.069 

0.058 

2.271 

3 

0.370 

3.865 

2.935 

7.034 

1.122 

18.572 

0.354 

2.354 

0.148 

0.043 

3.779 

4 

0.385 

3.585 

3.601 

5.454 

1.139 

11.033 

0.255 

0.857 

0.078 

0.130 

3.625 

5 

0.248 

3.188 

2.966 

7.090 

1.205 

7.800 

0.199 

1.657 

0.046 

0.024 

2.733 

6 

0.480 

4.512 

2.142 

4.533 

0.762 

18.385 

0.345 

1.710 

0.093 

0.167 

4.872 

7 

0.417 

5.260 

2.554 

3.404 

0.773 

13.679 

0.277 

0.908 

0.122 

0.161 

3.734 

8 

0.327 

4.388 

3.110 

4.396 

0.774 

9.041 

0.213 

0.669 

0.129 

0.141 

3.725 

9 

0.251 

3.125 

2.589 

6.390 

1.106 

13.410 

0.235 

1.898 

0.107 

0.044 

2.864 

mm 

0.422 

4.810 

2.002 

3.322 

1.144 

15.986 

0.348 

1.147 

0.154 

0.178 

3.511 
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( some  ion  ) 


Suponemos  que  ya  hemos  introducido  en  Matlab  las  matrices  de  datos  X e Y que  contienen  la 
muestra  piloto  y las  nuevas  observaciones  respectivamente.  Con  el  siguiente  codigo  consegui- 
mos  el  grafico  de  control  de  la  Figura  3.8  que  nos  indica  que  el  proceso  de  produccion  esta 
fuera  de  control  en  el  dfa  10. 

m = mean(X)  ; S = cov(X,l)  ; 

[NumDias,p]  = size (Y)  ; 

alpha  = 0.05  ; 

LC  = ( (n- 1 ) *p/ (n-p) ) * f inv ( 1 -alpha , p , n-p)  ; 

T_i  = 0; 

T = [ ] ; 

i = 1 ; 

while  (T_i  <=  LC)  & (i  <=  NumDias) 

T_i  = n* (Y (i , : ) -m) *inv (S) * (Y (i , : ) -m) ' / (n+1)  ; 

T = [T  ; T_i]  ; 
i = i + 1 ; 

end 

plot ( [ 1 : i - 1 ] ' , T , ' ko- ' , ' Marker Face Color ' , ' k' ) 
hold  on 

plot  ( [ 1 : i - 1 ] , LC*ones (1 , i-1) , ' k- - ' , ' LineWidth' ,1.5) 
hold  on 

text (1 . 5, LC+1 . 2 , ' UCL ' , ' FontSize' , 14) 
if  (i  <=  NumDias)  | (T_i>UCL) 

plot ( i-1 , T_i , ' ko' , ' Markers ize ' , 12 ) 

end 

xlabel ( ' Dia' ) 
ylabel ('T_i*2' ) 


Figura  3.8. 

Grafico  de  control  para  datos  de  zumos  (Problema  3.19) 
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CAPITULO 


Analisis  de  componentes 

principales 


El  problema  de  reduccion  de  la  dimension  subyace  tras  la  mayorfa  de  los  metodos 
de  Analisis  Multivariantc.  Genericamente  puede  plantcarsc  de  la  manera  siguiente: 
^Es  posible  describir  la  informacion  contenida  en  unos  datos  mediante  un  numero  de 
variables  menor  que  el  de  variables  observadas? 

El  analisis  de  componentes  principales  parte  de  una  matriz  de  datos  (centrada)  de  n 
filas  y p columnas,  que  puede  considcrarse  como  una  muestra  de  tamano  n de  un 
vector  aleatorio  de  dimension  p, 


x = (x1,...,xpy. 


Se  considera  una  combinacion  lineal  (univariantc)  de  X, 

y = X't , 

donde  t es  un  vector  de  pesos  de  dimension  p.  La  primera  componente  principal 
aparccc  como  solucion  al  problema  de  encontrar  el  vector  t que  maximiza  la  varian- 
za  de  Y con  la  condicion  de  normalizacion  t't  = 1.  En  otras  palabras,  la  expresion 
var(Y)  en  funcion  del  vector  de  pesos  t da  lugar  a un  problema  variacional  que  tiene 
por  solucion  la  primera  componente  principal.  Este  problema  equivale  a encontrar 
los  autovalores  y autovectores  de  la  matriz  de  covarianzas  de  X.  De  manera  que  las 
sucesivas  componentes  principales  se  obtienen  de  la  diagonalizacion  de  la  matriz  de 
covarianzas  de  X, 

S = TAT' , 

donde  T es  una  matriz  ortogonal  p x p cuyas  columnas  son  los  coeficientes  de  las 
componentes  principales. 
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PROBLEMA  4.1 


Sea  la  matriz  de  varianzas-covarianzas  poblacionales 


X = 


3 1 1 \ 
13  1 
115/ 


correspondiente  a un  vector  aleatorio  X = X2,  X3)'  de  media  cero. 

(a)  Calculense  los  autovalores  y autovectores  de  S. 

(b)  Escribase  el  vector  Y = (Yi,  Y2,Y3)'  de  componentes  principales  e indiquese 
que  proporcion  de  la  varianza  total  explica  cada  componente. 

(c)  Representese  el  vector  X original  en  el  piano  de  las  dos  primeras  componentes 
principales.  Concretese  esta  representacion  para  la  observacion  x = (2,  2, 1)'. 


SOLUCION  ) 


(a)  Los  autovalores  de  S,  ordenados  de  mayor  a menor,  son  Ai  = 6,  A2  = 3 y A3  = 2.  Los 
correspondientes  autovectores  normalizados  son  ei  = (1, 1,  2)//v/6-  g2  = (1, 1,  —l)'/y/3  y 
e3  = (1,  —1, 0)'/\/2. 

(b)  Las  componentes  principales  son 


Y\ 

Y2 

y3 


e^X  — — ^=(Xi  + X2  + 2X3) 
e^X  = — ^=(Xi  + X2  — X3) 
e'3X=-j=(X1-X2). 


La  varianza  total  es 

VT(£)  = tr(S)  = 11 . 

La  proporcion  de  VT(X)  explicada  por  la  primera  componente  principal  es 


var(Y1 ) 

VT(E) 


Ai 

11 


54.5%. 


Analogamente  la  explicada  por  Y2  eY3  es  27.3%  y 18.2%  respectivamente. 

(c)  Para  expresar  X en  el  piano  de  Y\  e Y2  debe  realizarse  el  producto  escalar  de  X por  las 
direcciones  dadas  por  ei  y e2.  Para  x el  resultado  es  el  punto  (yi,y2)  = (x/6,  \/3). 
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PROBLEMA  4.2 


Dados  los  datos  de  la  Tabla  2.1,  considerense  unicamente  las  variables  X \ = dura- 
cion  de  la  hipoteca  y X2  = precio  y denotese  por  X el  vector  (X \ , X2)' . 

(a)  Calculense  el  vector  x y la  matriz  de  covarianzas  muestral  S. 

(b)  Determmense  las  componentes  principales  muestrales  Y\  e Y2  >’  sus  varianzas. 

(c)  Hdllese  la  proporcion  de  varianza  explicada  por  Y\. 

(d)  Calculense  los  coeficientes  de  correlacion  corr(Y\ , X^),  para  k = 1,2.  Inter- 
pretese  la  primera  componente  principal. 


( SOLUC ION  ) 


(a)  La  media  esx=  (19.05, 1.57)'  y la  matriz  de  covarianzas  es 

f 56.97  5.17  \ 

* - 0.89  ) ' 

(b)  Los  autovalores  de  S son  Ai  = 57.44  y A2  = 0.42.  Los  correspondientes  autovectores 
normalizados  son  ei  ~ (0.99,0.09)'  y e2  ~ (0.09,-0.99)'.  Por  tanto,  las  componentes 
principales  de  S tienen  la  expresion 

Y\  = ei(X  - X)  = 0.99(Xi  - 19.05)  + 0.09(X2  - 0.42) 

Y2  = e(,(X  - X)  = 0.09(Xi  - 19.05)  - 0.99(X2  - 0.42). 

La  varianza  de  una  componente  principal  es  el  autovalor  de  S que  la  determina,  luego 

var(Yi)  = Ai  = 57.44  y var(F2)  = A2  = 0.42  . 


(c)  La  proporcion  de  VT( S)  explicada  por  Y\  es  var(F1)/yr(S)  ~ 99%. 

(d)  Las  correlaciones  entre  la  primera  componente  y las  variables  X,  son 


corr(Y1,X1) 


enx/Ai 


0.99x/57l4 

V5C97 


0.99, 


y 

corr(Y1,X2)  = ei2^  = 0.72. 

a/S22 

El  hecho  de  que  la  primera  componente  principal  (que  es  esencialmente  X \ ) explique  gran 
parte  de  la  variabilidad  del  sistema  es  debido  a que  la  varianza  muestral  de  X\  es  mucho 
mayor  que  la  de  X2  y eso  hace  que  la  varianza  sea  considerablemente  mayor  a lo  largo  de 
la  direccion  dada  por  el  vector  ei.  En  este  caso  conviene  estandarizar  los  datos  y realizar  un 
nuevo  analisis  de  componentes  principales  sobre  la  matriz  resultante.  Esto  equivale  a obtener 
las  componentes  principales  a partir  de  la  matriz  de  correlaciones. 
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PROBLEMA  4.3 


Calculese  la  matriz  de  correlaciones  R asociada  a la  matriz  S del  Problema  4.2. 

(a)  Determmense  las  componentes  principales  a partir  de  R v sus  varianzas. 

(b)  Hdllese  la  proporcion  de  varianza  explicada  por  la  primera  componente. 

(c)  Calculense  los  coeficientes  de  correlacion  entre  la  primera  componente  y las 
variables  X,  estandarizadas. 

(d)  Compdrense  las  componentes  principales  obtenidas  en  (a)  con  las  componentes 
obtenidas  en  el  apartado  (b)  del  ejercicio  anterior.  iQue  es  mas  adecuado: 
determinar  las  componentes  principales  a partir  de  R o de  S ? 


' SOLUCION  ) 


(a)  La  matriz 


R = 


1 0.72  \ 
0.72  1 ) ' 


tiene  autovalores  Ai  = 1.72  y A2  = 0.28  y autovectores 

ei  = (0.71,0.71)'  y e2  = (-0.71,0.71)'. 


Por  tanto,  las  componentes  principales  de  R son 

Yi  = e[Z  = 0.71Zi  + 0.71Z2  e Y2  = e'2Z  = -0.71Zi  + 0.71Z2l 


donde  Zx  = (Xt  - 19.05)/7.55,  Z2  = (X2  - 1.57)/0.94  y Z = (Z1,Z2)'  es  el  vector  X 
estandarizado. 


(b)  La  variabilidad  total  viene  medida  por  VT(R)  = tr(R)  = 2 y la  proporcion  de  la  misma 
explicada  por  Y\  es  Ai  / VT(R)  = 1.72/2  = 86%. 

(c)  Los  coeficientes  de  correlacion  entre  Y\  y las  variables  Z,  son: 


corr(Y1,Z1) 


enVM  = 0_93;  corr(Y1,Z2)  = 0.93. 

Vm 


(d)  La  primera  componente  principal  de  R da  ahora  igual  peso  mayor  a las  variables  X\  y 
X2.  Segun  lo  comentado  en  el  Problema  4.2  serfa  mas  adecuado  calcular  las  componentes 
principales  a partir  de  R. 
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PROBLEMA  4.4 


La  Tabla  4.1  contiene  11  indicadores  economicos  y sociales  de  96  paises.  Las  varia- 
bles observadas  son:  X\  = Tasa  anual  de  crecimiento  de  la  poblacion,  X2  = Tasa 
de  mortalidad  infantil  por  cada  1000  nacidos  vivos,  X:>  = Porcentaje  de  mujeres  en 
la  poblacion  activa,  X4  = PNB  en  1995  (en  millones  de  dolares),  X5  = Produccion 
de  electricidad  (en  millones  kW/h),  Xq  = Lineas  telefonicas  por  cada  1000  habitan- 
tes,  Xy  = Consumo  de  agua  per  capita,  = Proporcion  de  la  superficie  del  pais 
cubierta  por  bosques,  Xg  = Proporcion  de  deforestation  anual,  X\q  = Consumo 
de  energia  per  capita,  Xu  = Emision  de  C02  per  capita.  Realicese  un  andlisis  de 
componentes  principales  y razdnese  a partir  de  que  matriz  , S o R,  es  mas  adecuado. 
Interpretense  las  dos  primeras  componentes. 


Observemos  primero  que  las  unidades  de  medida  de  las  variables  X,  son  muy  distintas  (por- 
centajes,  dolares,  kWh, . . . ).  Ademas,  las  elevadas  varianzas  de  X \ y X-,  hacen  prever  que  un 
analisis  de  componentes  principales  realizado  a partir  de  la  matriz  de  covarianzas  S dara  como 
resultado  una  primera  y segunda  componentes  principales  que  coincidiran  basicamente  con 
estas  dos  variables  observadas.  Por  tanto,  el  analisis  de  componentes  principales  debe  llevarse 
a cabo  a partir  de  la  matriz  de  correlaciones  R.  Esto  equivale  a estandarizar  cada  una  de  las  X, 
a media  cero  y varianza  unidad  y considerar  la  matriz  de  covarianzas  de  las  variables  estanda- 
rizadas.  La  siguiente  funcion  Matlab  realiza  el  analisis  de  componentes  principales,  primero  a 
partir  de  S y,  en  segundo  lugar,  a partir  R. 


% COMP 

% La  funcion  [T1 , Y1 , acuml , T2 , Y2 , acum2 ] =comp (X)  calcula  las 
% componentes  principales  de  una  matriz  de  datos  X (n,p) . 

% Devuelve  : 

% T1  componentes  principales  a partir  de  la  matriz  S 
% Y1  representation  de  los  datos 

% acuml  porcentajes  acumulados 

% T2  componentes  principales  a partir  de  la  matriz  R 
% Y2  representation  de  los  datos 

% acum2  porcentajes  acumulados 

function  [T1 , Y1 , acuml , T2 , Y2 , acum2] =comp (X) 

[n,  p]  = size  (X)  ; 

% Vector  de  etiquetas  para  los  individuos . 
for  i = l:n 

lab (i , : ) =sprintf ( ' %3g' , i) ; 
end 

% Matriz  de  centrado  y matriz  de  datos  centrados. 

H = eye (n) -ones (n) /n; 

X = H*X; 

% Calculo  de  las  matrices  de  covarianzas  y de  correlaciones. 
S = cov(X,l);  R = corr(X); 
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Tabla  4.1. 

Indicadores  economicos  y sociales  sobre  pafses  del  mundo  (Problema  4.4) 


Pais 

*1  -^2  -^3  -^4  Xq  X7  Xg  X9  X10  Xu 

1.  Albania 

1 

30 

41 

2199 

3903 

12 

94 

53 

0 

341 

1.2 

2.  Angola 

3 

124 

46 

4422 

955 

6 

57 

19 

0.7 

89 

0.5 

3.  Arabia  Saudi 

4.3 

21 

13 

133540 

91019 

96 

497 

1 

0 

4566 

13.1 

4.  Argelia 

2.5 

34 

24 

44609 

19883 

42 

180 

2 

0.8 

906 

3 

5.  Argentina 

1.3 

22 

31 

27843 1 

65962 

160 

1043 

22 

0.1 

1504 

3.5 

6.  Australia 

1.4 

6 

43 

337909 

167155 

510 

933 

19 

0 

5341 

15.3 

7.  Austria 

0.6 

6 

41 

216547 

53259 

465 

304 

47 

-0.4 

3301 

7.2 

8.  Bangladesh 

2 

79 

42 

28599 

9891 

2 

220 

6 

4.1 

64 

0.2 

9.  Belgica 

0.3 

8 

40 

250710 

72236 

457 

917 

20 

-0.3 

5120 

10.1 

10.  Benin 

3 

95 

48 

2034 

6 

5 

26 

45 

1.3 

20 

0.1 

1 1 . Bielorrusia 

0.4 

13 

49 

21356 

31397 

190 

295 

31 

-0.4 

2392 

9.9 

12.  Bolivia 

2.3 

69 

37 

5905 

2824 

35 

201 

45 

1.2 

373 

1 

13.  Brasil 

1.6 

44 

35 

579787 

260682 

75 

246 

66 

0.6 

718 

1.4 

14.  Bulgaria 

-0.6 

15 

48 

11225 

381333 

335 

1544 

33 

-0.2 

2438 

6.4 

15.  Camerun 

2.9 

56 

38 

8615 

2740 

4 

38 

44 

0.6 

103 

0.2 

16.  Canada 

1.3 

6 

45 

573695 

554227 

590 

1602 

49 

-1.1 

7854 

14.4 

17.  Colombia 

1.8 

26 

37 

70263 

43354 

100 

174 

52 

0.7 

622 

1.8 

18.  Congo 

3.1 

90 

43 

1784 

435 

8 

20 

58 

0.2 

331 

1.6 

19.  Corea  del  Norte 

1.8 

26 

45 

12870 

38000 

47 

687 

74 

0 

1129 

11.2 

20.  Corea  del  Sur 

0.9 

10 

40 

435137 

164993 

415 

632 

66 

0.1 

2982 

6.6 

21.  Costa  de  Marfil 

3.4 

86 

33 

9248 

2305 

8 

66 

34 

1 

103 

0.5 

22.  Costa  Rica 

2.5 

13 

30 

8884 

4772 

164 

780 

28 

3 

558 

1.2 

23.  Cuba 

0.9 

9 

38 

7150 

10982 

32 

870 

16 

1 

923 

2.6 

24.  Chile 

1.6 

12 

32 

59151 

25276 

132 

1626 

12 

-0.1 

1012 

2.6 

25.  China 

1.3 

34 

45 

744890 

928083 

34 

461 

13 

0.7 

664 

2.3 

26.  Dinamarca 

0.2 

6 

46 

156027 

40097 

613 

233 

12 

0 

3977 

10.4 

27.  R.  Dominicana 

2 

37 

29 

11390 

6182 

79 

446 

22 

2.9 

337 

1.4 

28.  Ecuador 

2.3 

36 

26 

15997 

8256 

61 

581 

43 

1.8 

565 

1.8 

29.  Egipto 

2.2 

56 

29 

45507 

51947 

46 

956 

0 

0 

600 

1.5 

30.  El  Salvador 

1.8 

36 

34 

9057 

3211 

53 

245 

6 

2.3 

370 

0.7 

3 1 . E.  Arabes  Unidos 

5.8 

16 

13 

42806 

18870 

283 

884 

0 

0 

10531 

33.9 

32.  Eslovaquia 

0.3 

11 

48 

15848 

24740 

208 

337 

38 

0.1 

3243 

7 

33.  Espana 

0.2 

7 

36 

532347 

161654 

385 

781 

51 

0 

2458 

5.7 

34.  Etiopfa 

2.6 

112 

41 

5722 

1293 

2 

51 

13 

0.3 

22 

0.1 

35.  Filipinas 

2.3 

39 

37 

71865 

27062 

21 

686 

26 

3.4 

316 

0.8 

36.  Finlandia 

0.4 

5 

48 

105174 

65546 

550 

440 

77 

0 

5997 

8.2 

37.  Francia 

0.5 

6 

44 

1451051 

476200 

558 

665 

25 

-0.1 

4042 

6.3 

38.  Gabon 

2.9 

89 

44 

3759 

933 

30 

57 

71 

0.6 

652 

5.5 

39.  Ghana 

3 

73 

51 

6719 

6115 

4 

35 

42 

1.4 

93 

0.2 

40.  Grecia 

0.5 

8 

36 

85885 

40623 

493 

523 

47 

0 

2260 

7.2 

41.  Guatemala 

2.9 

44 

26 

14255 

3161 

27 

139 

39 

1.8 

210 

0.6 

42.  Haiti 

2 

72 

43 

1777 

362 

8 

7 

1 

5.1 

29 

0.1 

43.  Pafses  Bajos 

0.6 

6 

40 

371039 

79647 

525 

518 

10 

-0.3 

4580 

9.2 

44.  Honduras 

3 

45 

30 

3566 

2672 

29 

294 

41 

2.2 

204 

0.6 

45.  Hungrfa 

-0.3 

11 

44 

42129 

33486 

185 

661 

18 

-0.5 

2383 

5.8 

46.  India 

1.9 

68 

32 

319660 

386500 

13 

612 

17 

0.6 

248 

0.9 

51.  Indonesia 

1.7 

51 

40 

190105 

53414 

17 

96 

60 

1.1 

366 

1 

47.  Irak 

2.7 

108 

18 

24600 

27060 

33 

4575 

4 

0.1 

1213 

3.4 

48.  Iran 

3.2 

45 

24 

113400 

79128 

79 

1362 

11 

0 

1505 

4 

49.  Irlanda 

0.1 

6 

33 

52765 

17105 

365 

233 

6 

-1.2 

3137 

8.7 

50.  Islandia 

1.1 

4 

44 

6686 

4780 

555 

636 

1 

0 

7932 

6.8 

52.  Israel 

2.7 

8 

40 

87875 

32781 

418 

408 

6 

-0.3 

2717 

8.1 

53.  Jordania 

4.7 

31 

21 

6354 

5076 

73 

173 

1 

-1 

1067 

3 

54.  Kenia 

2.9 

58 

46 

7583 

3539 

9 

87 

2 

0.6 

110 

0.2 

55.  Kuwait 

-0.3 

11 

28 

28941 

22798 

230 

525 

0 

0 

8622 

11.2 

56.  Lfbano 

2.3 

32 

28 

10673 

5184 

82 

271 

8 

0.6 

964 

2.9 

57.  Libia 

3.6 

61 

21 

23400 

17800 

59 

880 

0 

-1.4 

2499 

8.1 

58.  Malasia 

2.5 

12 

37 

78321 

39093 

166 

768 

54 

2.1 

1699 

3.8 

59.  Marruecos 

2 

55 

35 

29545 

11100 

43 

427 

20 

-1.4 

327 

1.1 

60.  Mexico 

2.1 

33 

31 

304596 

147926 

96 

899 

25 

1.3 

1561 

3.8 

61.  Mozambique 

1.8 

113 

48 

1353 

490 

3 

55 

22 

0.8 

40 

0.1 

62.  Birmania 

1.8 

83 

43 

35840 

3500 

3 

101 

44 

1.3 

49 

0.1 

63.  Nepal 

2.5 

91 

40 

4391 

927 

4 

150 

37 

1 

28 

0.1 

64.  Nicaragua 

3.1 

46 

36 

1659 

1688 

23 

367 

50 

1.9 

300 

0.6 

65.  Nigeria 

2.9 

80 

36 

28411 

15530 

4 

41 

17 

0.7 

162 

0.9 

66.  Noruega 

0.5 

5 

46 

136077 

113488 

556 

488 

31 

-1.4 

5318 

14.1 

67.  Nueva  Zelanda 

1 

7 

44 

51655 

35135 

479 

589 

28 

0 

4245 

7.6 

68.  Oman 

4.5 

18 

15 

10578 

6187 

77 

564 

19 

0 

2392 

5.3 

69.  Pakistan 

3 

90 

26 

59991 

58529 

16 

2053 

2 

3.5 

254 

0.6 

70.  Panama 

1.9 

23 

34 

7253 

3380 

114 

754 

42 

1.9 

618 

1.7 

71.  Paraguay 

2.7 

41 

29 

8158 

36415 

31 

109 

32 

2.8 

299 

0.6 

72.  Peru 

2.1 

47 

29 

55019 

15563 

47 

300 

53 

0.4 

367 

1 

73.  Polonia 

0.4 

14 

46 

107829 

135347 

148 

321 

28 

-0.1 

2401 

8.9 

74.  Portugal 

-0.1 

7 

43 

96829 

31380 

361 

739 

34 

-0.5 

1827 

4.8 

75.  Reino  Unido 

0.3 

6 

43 

1094734 

325383 

502 

205 

10 

-1.1 

3732 

9.8 

76.  Rep.  Checa 

0 

8 

47 

39990 

58705 

236 

266 

34 

0 

3868 

13.1 

77.  Rumania 

0 

23 

44 

33488 

55136 

131 

1134 

27 

0 

1733 

5.4 

78.  Senegal 

2.8 

62 

42 

5070 

1002 

10 

202 

39 

0.7 

97 

0.4 

79.  Singapur 

1.8 

4 

38 

79831 

20046 

478 

84 

7 

2.3 

8103 

17.7 

80.  Siria 

3.1 

32 

26 

15780 

15186 

63 

435 

4 

-4.3 

997 

3.3 

81.  Sri  Lanka 

1.3 

16 

35 

12616 

4387 

11 

503 

27 

1.4 

97 

0.3 

82.  Suddn 

2.2 

77 

28 

7510 

1333 

3 

633 

18 

1.1 

66 

0.1 

83.  Suecia 

0.6 

4 

48 

209720 

142895 

681 

341 

68 

0 

5723 

6.6 

84.  Suiza 

0.8 

6 

40 

286014 

65724 

613 

173 

30 

-0.6 

3629 

6.4 

85.  Surafrica 

2.3 

50 

37 

130918 

189316 

95 

359 

4 

-0.8 

2146 

7.5 

86.  Tailandia 

1.3 

35 

46 

159630 

71177 

59 

602 

25 

3.5 

769 

2 

87.  Tanzania 

3.1 

82 

49 

3703 

1913 

3 

40 

38 

1.2 

34 

0.1 

88.  Tunez 

2.1 

39 

30 

16369 

6714 

58 

381 

4 

-1.9 

595 

1.6 

89.  Turquia 

1.9 

48 

35 

169452 

78322 

212 

585 

26 

0 

957 

2.5 

90.  Ucrania 

0.1 

15 

49 

84084 

202995 

157 

673 

16 

-0.3 

3180 

11.7 

91.  Uruguay 

0.6 

18 

40 

16458 

7617 

196 

241 

4 

-0.6 

629 

1.6 

92.  Venezuela 

2.4 

23 

33 

65382 

73116 

111 

382 

52 

1.2 

2186 

5.7 

93.  Vietnam 

2.2 

41 

49 

17634 

12270 

11 

414 

26 

1.5 

101 

0.3 

94.  Yemen 

4.2 

100 

29 

4044 

2159 

12 

335 

8 

0 

206 

0.7 

95.  Zambia 

2.6 

109 

45 

3605 

7785 

8 

186 

43 

1.1 

149 

0.3 

96.  Zimbabue 

2.8 

55 

44 

5933 

7334 

14 

136 

23 

0.7 

438 

1.8 
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% Componentes  principales  a partir  de  la  matriz  de  covarianzas. 
% Ordenacion  de  los  valores  propios  segun  la  variabilidad 
% explicada  (de  mayor  a menor) . D1  es  un  vector  fila. 

% Las  filas  de  T1  son  los  vectores  propios  ordenados. 

[T1,D1]  = eigsort (S) ; T1  = Tl'; 

% Corregimos  los  signos  de  Tl . 
if  ( (sum (sign (Tl (:, 1) ) ) < 0)  & (sum (sign (Tl ( : , 2 ) ) ) < 0)) 

Tl  = -Tl; 
end 

S = Sum(Dl (1 :p) ) ; 
for  i = 1 : p 

percentl(i)  = (D1 (i) /s) *100; 
acuml(i)  = sum (percent 1 ( 1 : i ))  ; 
end 


% Componentes  principales  a partir  de  la  matriz  de  correlaciones . 
% Ordenacion  de  los  valores  propios  segun  la  variabilidad 
% explicada  ( de  mas  a menos) . D2  es  un  vector  fila. 

% Las  filas  de  T2  son  los  vectores  propios  ordenados. 

[T2,D2]  = eigsort (R) ; T2  = T2 ' ; 

% corregimos  los  signos  de  T2 
if  ( (sum (sign (T2  (:, 1) ) ) < 0)  & (sum (sign (T2 ( : , 2 ) ) ) < 0)) 

T2  = -T2 ; 
end 

for  i = 1 : p 

percent2  (i)  = (D2 (i) /p) *100; 
acum2 (i)  = sum (percent2 ( 1 : i ) ) ; 
end 


% Las  columnas  de  Tl  son  las  componentes  principales. 

% Representacion  de  los  datos. 

Y1  = X*T1; 
subplot (2,1,1) ; 

plot (Y1 ( : , 1) , Y1 ( : , 2) , ' . b' , 'MarkerSize' ,15) 
grid 

xlabel('la.  Componente  Principal FontSize ', 10 ) 
ylabel('2a.  C . P FontSize ', 10 ) 

title(['A.C.P.  a partir  de  S ( ' , num2str (acuml (2 )),'%)'],.. . 

' FontSize ' , 12 ) 
for  i = l:n, 

text ( Y1 (i , 1)  , Y1 (i, 2)  , lab (i , : ) ) ; 
end 


% Las  columnas  de  T2  son  las  componentes  principales 
% (hay  que  estandarizar  las  variables) . 

s = diag (sqrt (diag (S) )) ; 

% Representacion  de  los  datos. 

Y2  = X*inv (s) *T2 ; 
subplot (2,1,2) ; 
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plot(Y2(:,l) , Y2 ( : , 2 ) , ' .b' , ' MarkerSize ' , 15 ) 
grid 

xlabel ( ' la  Componente  Principal FontSize 10 ) 
ylabel('2a.  C . P FontSize 10 ) 

title(['A.C.P.  a partir  de  R ( ' , num2str (acum2 (2 )),'%)']  , . . . 

' FontSize ' , 12 ) 
for  i = l:n, 

text (Y2 ( i , 1)  , Y2 ( i , 2 ) , lab ( i , :)  ) ; 
end 

La  funcion  eigsort . mes  una  funcion  auxiliar  que  se  utiliza  dentro  de  comp  . mpara  ordenar 
las  componentes  principales  segiin  el  porcentaje  de  variabilidad  explicado  (de  mayor  a menor). 

% EIGSORT 

% Funcion  que  ordena  los  valores  propios  segun  el  porcentaje 
% de  variabilidad  explicada  ( de  mayor  a menor  ) . Tambien  se 
% reordenan  los  vectores  propios,  segun  los  vap's. 

% Nota:  d es  un  vector  columna . 

function  [v,d]  = eigsort (a) 

[v, d]  = eig (a) ; 

[x,i]  = sort ( -diag (real (d) )) ; 
d = -x;  v = V ( : , i) ; 


Sea  X la  matriz  que  contiene  los  datos  de  la  Tabla  4.1.  Para  obtener  las  componentes  principa- 
les haremos 

[T1 , Y1 , acuml , T2 , Y2 , acum2 ] = comp (X) 

La  Figura  4. 1 contiene  la  representation  en  componentes  principales  de  estos  pafses  y el  por- 
centaje de  variabilidad  explicado  por  las  dos  primeras  componentes.  Interpretaremos  sola- 
mente  las  componentes  calculadas  a partir  de  R,  puesto  que  son  las  mas  adecuadas  en  este 
caso.  Los  coeficientes  de  estas  dos  componentes  son  las  dos  primeras  columnas  de  la  matriz 
T2.  Los  porcentajes  de  variabilidad  acumulados  se  encuentran  en  el  vector  acum. 


T2 ( : , 1 : 2)  = 


acum2  (1:2)  = 


0 .3141 
-0 . 3484 
0 . 0735 
0.4403 
0.3297 
-0 . 1839 
0 . 1629 
-0 . 0948 
-0.5218 
0 . 3467 
-0 . 1006 

36 . 6353 


0 .3924 
0 . 0414 
0 . 1776 
0 . 1340 
-0 . 0834 
-0 . 0866 
0.6398 
-0 . 3231 
0 .2903 
-0.3896 
0 . 1749 

54 . 1806 
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A.C.P.  a partir  de  S (99.9927%) 


0 

A -2 

O 


-6 
-8 

-5000  -4000  -3000  -2000  -1000  0 1000 


la.  Componente  Principal 
A.C.P.  a partir  de  R (54.1806%) 


-4 ‘ ‘ ‘ ‘ ' ‘ 1 

-3-2-101234 
la  Componente  Principal 


Figura  4.1. 

Representation  en  componentes  principales.  (Problema  4.4.) 


Las  variables  X\,  X2,  X4,  X5,  Xg  y Xig  son  las  que  mas  contribuyen  en  la  primera  compo- 
nente principal,  que  puede  interpretarse  como  un  mdice  de  riqueza.  Mientras  que  X \ , X7,  XH 
y X10  son  las  que  mas  contribuyen  en  la  segunda  componente,  que  podrfa  interpretarse  como 
un  mdice  de  ruralidad.  Asi  por  ejemplo,  el  grupo  de  paises  formados  formado  por  Canada 
(16),  China  (25),  Francia  (37)  y Reino  Unido  (75)  serfan  los  mas  ricos  segun  este  mdice  que 
hemos  construfdo,  mientras  que  Bangladesh  (8)  y Haiti  (42)  serfan  los  mas  pobres.  Por  otro 
lado,  Iran  (48)  y Pakistan  (69)  son  los  paises  con  un  indice  de  ruralidad  mas  elevado,  mientras 
que  Finlandia  (36)  y Suecia  (83)  se  encuentran  en  el  lado  opuesto. 


PROBLEMA  4.5 


En  la  Tabla  4.2  se  recogen  las  siguientes  variables  medidas  sobre  30  olmos  hembra. 


nombre 

unidades 

breve  descripcion 

X\ 

Longitud 

mm 

mayor  medida  de  la  corteza 

X-2 

Diametro 

mm 

perpendicular  a la  longitud 

X3 

Altura 

mm 

con  modern  dentro  de  la  corteza 

x4 

Peso  total 

g 

todo  el  olmo 

X5 

Peso  desvainado 

g 

peso  de  la  madera 

X6 

Peso  de  las  vtsceras 

g 

peso  de  la  tripa  ( despues  de  sangrar) 

X7 

Peso  de  la  corteza 

g 

despues  de  ser  secado 

Este  conjunto  de  datos  pertenece  a un  estudio  realizado  por  el  Departamento  de  In- 
dustria  Primaria  y Pesca  de  Tasmania  (Australia)  en  1994.  Los  datos  completos  estdn 
disponibles  en  Nash  et  al.  ( 1 994 ).  Realicese  un  andlisis  de  componentes  principales  e 
interpretense  las  dos  primeras  componentes. 
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Tabla  4.2. 

Datos  para  el  Problema  4.5  (Fuente:  Nash  et  al.  1994) 


XI 

X2 

X3 

X4 

X5 

X6 

X7 

0.53 

0.42 

0.135 

0.677 

0.2565 

0.1415 

0.21 

0.53 

0.415 

0.15 

0.7775 

0.237 

0.1415 

0.33 

0.545 

0.425 

0.125 

0.768 

0.294 

0.1495 

0.26 

0.55 

0.44 

0.15 

0.8945 

0.3145 

0.151 

0.32 

0.525 

0.38 

0.14 

0.6065 

0.194 

0.1475 

0.21 

0.535 

0.405 

0.145 

0.6845 

0.2725 

0.171 

0.205 

0.47 

0.355 

0.1 

0.4755 

0.1675 

0.0805 

0.185 

0.44 

0.34 

0.1 

0.451 

0.188 

0.087 

0.13 

0.565 

0.44 

0.155 

0.9395 

0.4275 

0.214 

0.27 

0.55 

0.415 

0.135 

0.7635 

0.318 

0.21 

0.2 

0.615 

0.48 

0.165 

1.1615 

0.513 

0.301 

0.305 

0.56 

0.44 

0.14 

0.9285 

0.3825 

0.188 

0.3 

0.58 

0.45 

0.185 

0.9955 

0.3945 

0.272 

0.285 

0.68 

0.56 

0.165 

1.639 

0.6055 

0.2805 

0.46 

0.68 

0.55 

0.175 

1.798 

0.815 

0.3925 

0.455 

0.705 

0.55 

0.2 

1.7095 

0.633 

0.4115 

0.49 

0.54 

0.475 

0.155 

1.217 

0.5305 

0.3075 

0.34 

0.45 

0.355 

0.105 

0.5225 

0.237 

0.1165 

0.145 

0.575 

0.445 

0.135 

0.883 

0.381 

0.2035 

0.26 

0.45 

0.335 

0.105 

0.425 

0.1865 

0.091 

0.115 

0.55 

0.425 

0.135 

0.8515 

0.362 

0.196 

0.27 

0.46 

0.375 

0.12 

0.4605 

0.1775 

0.11 

0.15 

0.525 

0.425 

0.16 

0.8355 

0.3545 

0.2135 

0.245 

0.47 

0.36 

0.12 

0.4775 

0.2105 

0.1055 

0.15 

0.5 

0.4 

0.14 

0.6615 

0.2565 

0.1755 

0.22 

0.505 

0.4 

0.125 

0.583 

0.246 

0.13 

0.175 

0.53 

0.41 

0.13 

0.6965 

0.302 

0.1935 

0.2 

0.565 

0.44 

0.16 

0.915 

0.354 

0.1935 

0.32 

0.595 

0.495 

0.185 

1.285 

0.416 

0.224 

0.485 

0.475 

0.39 

0.12 

0.5305 

0.2135 

0.1155 

0.17 

' SOLUCION  ) 

Sea  X la  matriz  que  contiene  los  datos  de  la  Tabla  4.2.  Mediante  la  instruction 
[T1 , Y1 , acuml , T2 , Y2 , acum2 ] = comp (X) 

obtendremos  las  componentes  principales.  Aunque  las  unidades  de  medida  de  las  variables 
son  distintas,  mm  y g,  las  magnitudes  son  muy  parecidas.  Por  tanto,  nos  quedaremos  con  las 
componentes  calculadas  a partir  de  la  matriz  de  covarianzas,  puesto  que  su  interpretacion  es 
siempre  mas  natural.  Las  dos  primeras  columnas  de  la  matriz  T1  contienen  estas  dos  compo- 
nentes principales  y el  vector  acuml  contiene  los  porcentajes  de  variabilidad  acumulados. 


T1 ( : , 1:2) 

= 0.1489 

0 . 1339 

-0 . 0764 

-0 . 0796 

0.4682 

0.1373 

0 . 7550 

0 .2810 

0 . 1894 

0 . 1829 

0.3825 

-0 . 8629 

0 . 0221 

-0.3162 

acuml (1:2) 

= 97.6342 

99. 1793 
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La  Figura  4.2  muestra  la  representation  de  los  datos  en  funcion  de  las  dos  primeras  compo- 
nentes  principales. 


0.15 

0.1 
CL 

O 0.05 

(S 
CM 

0 

-0.05 

-0.5  0 0.5  1 

la.  Componente  Principal 
A.C.P.  a partir  de  R (95.273%) 

2 


d 


-4 

-0.6  -0.4  -0.2  0 0.2  0.4 

la  Componente  Principal 

Figura  4.2. 

Representacion  en  componentes  principales.  (Problema  4.5.) 


A.C.P.  a partir  deS  (99.1793%) 


Puesto  que  el  peso  del  diametro,  X->,  es  muy  pequeno  en  ambas  componentes,  no  vamos  a 
tener  en  cuenta  esta  variable  a la  hora  de  interpetar  las  componentes.  La  primera  componente 
principal  puede  interpretarse  como  el  tamano  del  arbol,  siendo  el  peso  total,  X4,  la  variable 
que  mas  contribuye  en  esta  primera  componente.  La  segunda  componente  principal  puede 
interpretarse  como  la  madera  util  del  arbol,  puesto  que  el  peso  de  las  vfsceras,  Xq,  y el  peso 
de  la  corteza,  X-j,  tienen  signo  opuesto  al  resto  de  variables. 

Observemos  que,  si  hubieramos  calculado  las  componentes  principales  a partir  de  la  matriz  de 
correlaciones,  la  interpretacion  habrfa  sido  distinta. 


PROBLEMA  4.6 


En  la  Tabla  4.3  se  recogen  datos  censales  de  algunos  pueblos  de  Espaiia. 

(a)  Determmense  las  dos  primeras  componentes  principales  a partir  de  la  matriz 
de  covarianzas  S.  Calculese  el  porcentaje  de  varianza  explicada  por  las  dos 
primeras  componentes. 

(b)  l Que  se  obtiene  si  se  utiliza  la  matriz  de  correlaciones  R en  lugar  de  S?  Ha- 
lle rise  los  valores  observados  de  las  dos  primeras  componentes  calculadas  a 
partir  de  R. 
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Tabla  4.3. 

Datos  censales  de  pueblos  de  Espana  (Problema  4.6) 


Pueblo 

Poblacion 

total 

(en  miles) 

Inmigrantes 
extranjeros  en 
ultimos  5 anos 
(en  decenas) 

N-  medio 
de  hijos 
por  pareja 

Porcentaje 
de  parados 

Porcentaje  de 
hogares  con  una 
sola  persona 

1 

5.442 

2.8 

1.75 

10.88 

4.75 

2 

5.058 

1.0 

1.77 

8.90 

5.42 

3 

5.692 

3.0 

1.71 

9.30 

5.05 

4 

7.429 

14.1 

2.14 

9.16 

4.81 

5 

6.053 

4.0 

1.91 

11.90 

5.99 

6 

4.068 

2.2 

1.90 

9.01 

5.17 

7 

4.750 

3.0 

1.81 

10.99 

6.47 

8 

3.955 

3.7 

1.83 

7.63 

5.32 

9 

6.866 

6.9 

1.81 

10.33 

4.17 

10 

5.585 

4.8 

2.08 

10.36 

3.5 

11 

3.321 

1.5 

1.75 

11.32 

8.69 

12 

3.495 

0.9 

1.67 

9.99 

4.77 

13 

3.741 

2.8 

1.66 

8.64 

8.72 

14 

2.555 

1.0 

1.76 

11.24 

7.99 

SOLUCION  ) 


(a)  Estamos  observando  en  cada  pueblo  un  vector  X = (X-\ , . . . , X-,)',  donde  la  variable  X-\ 
es  la  poblacion,  la  variable  X2  es  el  numero  de  inmigrantes  llegados  en  los  ultimos  cinco  anos, 
etc.  La  matriz  de  covarianzas  es 


/ 1.99 


S = 


V 


3.45 

0.11 

0.01 

-1.36 

11.68 

0.33 

-0.59 

-1.93 

0.02 

0.00 

-0.10 

1.52 

0.35 

2.66 

Los  autovalores  de  S,  asf  como  el  porcentaje  de  varianza  total  que  explican  las  correspondien- 
tes  componentes,  se  pueden  ver  a continuacion: 


A . | Porcentaje  Porcentaje 

Autovalor  V7YS)  acumulado 


13.31 

74.5 

74.5 

2.50 

14.0 

88.4 

1.55 

8.7 

97.1 

0.51 

2.8 

99.9 

0.01 

0.1 

100 

Las  dos  primeras  componentes  principales  son: 


Yi  = 0.31Xi  + 0.93X2  + O.O3X3  - 0.05X4  - O.2IX5 
Y2  = -0.30X1+0.31X2-0.01X3  + 0.12X4  + 0.89X5. 


La  primera  componente  es  una  media  ponderada  de  la  poblacion  y del  numero  de  inmigrantes 
recien  llegados,  asf  que  hasta  cierto  punto  mide  la  “vitalidad”  ( demografica)  de  ese  pueblo.  La 
segunda  componente  esta  determinada  en  gran  medida  por  el  numero  de  hogares  compuestos 
por  una  sola  persona. 
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(b)  La  matriz  de  correlaciones  es 

0.01  -0.64  \ 

0.15  -0.37 
0.00  -0.47  . 

1 0.18 
1 

Ya  sabemos  que  las  componentes  principales  de  esta  matriz  no  tienen  por  que  ser  las  mismas 
que  las  de  S.  De  hecho,  los  dos  mayores  autovalores  de  R son  2.82  y 1.03.  Los  correspon- 
dientes  autovectores  normalizados  son 

ei  = (0.53,0.52,0.50,-0.08,-0.43)', 
e2  = (0.13,0.03,0.17,0.96,0.20)'. 

Como  vemos,  la  primera  componente  calculada  a partir  de  R representa  en  mayor  medida  las 
posibilidades  de  crecimiento  de  la  poblacion  (lo  que  antes  hemos  llamado  “vitalidad”).  En 
cambio  la  segunda  componente  de  R ahora  esta  determinada  por  la  proporcion  de  parados. 
Para  calcular  la  matriz  W de  dimension  14  x 2 con  los  valores  observados  de  las  dos  primeras 
componentes,  denotemos  por  Z la  matriz  14  x 5 formada  por  las  observaciones  de  X estan- 
darizadas  a media  cero  y varianza  unidad.  Ademas  consideramos  la  matriz  formada  por  los 
autovectores  ei  y e2 

f 0.53  0.52  0.50  -0.08  -0.43  \ 

\ 0.13  0.03  0.17  0.96  0.20  ) 

Entonces  W = Z A'. 


PROBLEMA  4.7 


Sea  X un  vector  aleatorio  con  matriz  de  correlaciones  poblacionales 


P = 


1 P 0 \ 

P 1 P , 
0 P 1 / 


donde  0 < p < 

v2 


(a)  Calciilense  los  autovalores  y autovectores  de  p. 

(b)  Encuentrense  las  componentes  principales  de  p. 

(c)  Calculese  la  proporcion  de  variabilidad  total  explicada  por  las  dos  primeras 
componentes  principales. 

(d)  Calculese  la  correlacion  entre  la  primera  componente  principal  y X-2- 
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(a)  La  ecuacion  caracteristica  de  p tiene  la  expresion 

1 - A p 0 

Ip-  AI|  = p 1 — A P = (1  — A)[(l  — A)2  — 2p2}  = 0 
0 P 1 - A 

Como  p es  positivo  los  autovalores  ordenados  de  mayor  a menor  son  Aj.  = 1 + V2p,  \2  = 1 
y A3  = 1 - V2p. 

La  ecuacion  caracteristica,  aplicada  a Ai,  implica  que 

— V2px  i + px2  = 0 

px  1 - \f2px2  + px  3 = 0 => 

px  2 — V%PX3  = o 

Asf  que  un  autovector  normalizado  para  Ai  es  ei  = 1/2(1,  \/2, 1)'.  Analogamente  calculamos 
los  autovectores  correspondientes  a A2  y A3:  e2  = l/v/2(l,  0,  — 1)  'ye3  = 1/2(1, -V2,l )'. 

(b)  Dado  que  E (X)  = 0,  las  componentes  principales  centradas  son 

Vi  = + V2X2  + X3) 

Y2  = V2{X3  - X3) 

Y3  = l(X1~V2X2+X3). 

(c)  La  variabilidad  total  es  VT(p)  = tr(p)  = 3.  La  proporcion  de  variabilidad  total  ex- 
plicada  por  Y\  es  (1  + \/2p)  /3,  luego  cuanto  mas  correladas  estan  las  variables,  mejor  re- 
sume Y\  la  informacion  global.  La  proporcion  de  variabilidad  total  explicada  por  Y\  e Y2  es 
(2  + y/2p)/ 3. 

(d)  La  correlacion  entre  Y\  y X2  es  e\2\f\i/ \j a 22  = J (1  + \/2p)/2. 


( xi  = x3 

\ X2  = yj2x  1 


Sea  X un  vector  aleatorio  que  sigue  una  distribucion  normal  bivariante  de  media  cero 
y matriz  de  covarianzas 


(a)  Obtengase  lafuncion  de  densidad  de  X. 

(b)  Realicese  un  andlisis  de  componentes  principales  de  X. 
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SOLUCION 


(a)  La  funcion  de  densidad  de  X es 

/<x)  = 2i]ir"p  HX'E~'X)  = i^exp  - 5i^+44>) . 

y se  encuentra  representada  en  la  Figura  4.3. 

(b)  Los  autovalores  de  S son  Ai  = 6 + v/29  y A2  = 6 — v/29.  Dos  autovectores  (no 
normalizados)  de  S correspondientes  a estos  autovalores  son 

V!  = (5,  y/29  — 2)'  ~ (5,3.39)', 
v2  = (2-\/29,5)'~  (-3.39,5)', 

que  normalizados  dan  ei  = (0.83,  0.56)'  ye2  = (—0.56,  0.83)'.  Por  tanto,  las  componentes 
principales  de  X son 

Yi  = 0.83Xi  + 0.56X2 
V2  = -0.56Xi + 0.83X2. 


En  la  Figura  4.3  se  observa  que,  en  el  caso  de  la  distribucion  normal,  las  direcciones  de  las 
componentes  principales  coinciden  con  los  ejes  de  las  elipses  que  son  los  conjuntos  de  nivel 
de  la  densidad.  Concretamente  la  direccion  de  la  primera  componente,  es  decir,  la  direccion 
sobre  la  que  proyectanamos  X para  que  la  proyeccion  tuviera  la  maxima  variabilidad,  es  pre- 
cisamente  el  eje  mayor  de  estas  elipses. 


Figura  4.3. 

Conjuntos  de  nivel  de  la  densidad  normal  del  Problema  4.8. 
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PROBLEMA  4.9 


Sea 


S = 


3 1 1 \ 
14  0 
10  2/ 


la  matriz  de  covarianzas  muestral  correspondiente  al  vector  X = (X{,  X2,  Xy)', 
donde  X \ representa  la  puntuacion  media  en  asignaturas  de  econometria  para  un 
alumno  de  la  licenciatura  conjunta  en  economia  y derecho,  X2  es  un  promedio  de  sus 
resultados  en  asignaturas  de  derecho  y X>  es  el  resultado  medio  en  asignaturas  de 
libre  eleccion. 


(a)  Calculense  los  autovalores  de  la  matriz  S. 

(b)  Interpretese  la  segunda  componente  principal  a partir  de  S sabiendo  que  su 
segundo  autovector  es 

e2  = (0.5744,-0.5744,0.5744)'. 

I Como  interpretariamos  el  hecho  de  que  un  estudiante  tenga  un  valor  para  la 
segunda  componente  principal  mucho  menor  que  el  resto  de  sus  compaheros? 

(c)  1 Cudntas  componentes  principales  son  necesarias  para  explicar  un  mmimo  de 
un  80%  de  la  varianza?  Escnbanse  esas  componentes  enfuncion  de  los  datos 
originates  X\,  X2  y X3 


SOLUCION  ) 

(a)  Los  autovalores  de  S son  Ai  ~ 4.7,  A2  = 3 y A3  ~ 1.3. 

(b)  La  segunda  componente  principal  enfrenta  buenos  resultados  en  econometria  y asigna- 
turas de  libre  eleccion  con  buenos  resultados  en  derecho.  Si  la  segunda  componente  para  un 
estudiante  es  menor  que  las  de  sus  companeros  quiere  decir  que  se  le  dan  mejor  las  asignaturas 
de  derecho  que  aquellas  de  economia  o las  que  escogiera  en  libre  eleccion. 

(c)  Elegiremos  dos  componentes  principales 

Y\  = 0.5774Xi  + 0.7887A'2  + 0.2113X3, 

Y2  = 0.5774Xi  - 0.5774X2  + 0.5774X3, 

ya  que  la  proporcion  de  varianza  acumulada  explicada  por  la  primera  componente  principal  y 
por  la  primera  y segunda  componentes  es  52.5%  y 85.9%  respectivamente. 
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PROBLEMA  4.10 


Considerense  dos  variables  aleatorias  con  media  cero  y matriz  de  covarianzas 


con  a > 0 . Se  pide: 

(a)  Calculense  los  autovalores  de  £.  / Para  que  valores  de  a esY,  definida  positiva? 

(b)  Encuentrense  las  componentes  principales  a partir  de  X. 

(c)  Calculese  la  proporcion  de  variabilidad  explicada  por  la  primera  componente. 


( SOLUC ION  ) 


(a)  La  ecuacion  caracterfstica  de  X es 


|X  - AI|  = A2  - 2a2 X -f-  (j4  — 1 = 0. 

Por  tanto,  los  autovalores  de  X son  Ai  = cr2  + 1 y A2  = cr2  — 1.  La  matriz  X es  definida 
positiva  cuando  0 > 1. 

(b)  Los  autovectores  normalizados  de  X correspondientes  a los  autovalores  Ai  y A2  son, 
respectivamente,  ei  = -^(l,l)'ye2  = ^=(1,-1)'.  Entonces  las  componentes  principales  de 
X son 


Yi  = e'1X  = ^=(X1+X2) 

Y2  = e' X = -L(X!  - X2). 

Observemos  que  las  componentes  no  dependen  del  parametro  cr.  En  cambio,  su  variabilidad  si 
depende  de  cr,  como  veremos  a continuacion. 

(c)  La  varianza  total  es 

VT(X)  = tr(X)  = 2cr2  . 

La  proporcion  de  varianza  total  explicada  por  la  primera  componente  es  (vease  tambien  la 
Figura  4.4): 

Ai  cr2  + 1 1 1 

VT(X)  = 2cr2  = 2 + 2^ ' 

A medida  que  cr  aumenta,  la  correlacion  entre  X \ y X->  disminuye  y una  sola  componente 
principal  explica  cada  vez  menos  la  variabilidad  del  sistema. 
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Figura  4.4. 

Proportion  de  VT(S)  explicada  por  Y\  (Problema4.10). 


PROBLEMA4.il 


Considerese  la  matriz  de  varianzas-covarianzas  de  un  vector  aleatorio  X 

( 9/2  -3/2  \ 

V -3/2  9/2  ) 

(a)  Calculense  las  componentes  principales  de  X a partir  de  X. 

(b)  Considerese  la  siguiente  matriz  ortogonal 

f 2/V5  -1/V5  \ 

v -l/VE  2/VE  ) ' 

y calculense  las  componentes  principales  de  Y = AX  a partir  de  las  compo- 
nentes principales  de  X. 


SOLUCION  ) 


(a)  Las  componentes  principales  de  X son  Z\  = (X±  — X%)/ s/2  y Zi  = (Xi  + X?)/ 1/2. 

(b)  Dado  que  A es  una  matrix  ortogonal,  el  vector  Y no  es  mas  que  una  rotacion  rfgida  (o 
una  reflexion)  del  vector  X.  Como  las  direcciones  de  las  componentes  principales  de  Y son 
las  direcciones  de  maxima  variabilidad  de  Y,  para  hallarlas  lo  unico  que  tenemos  que  hacer  es 
rotar  las  de  X.  Otra  manera  de  razonar  es  a partir  de  la  descomposicion  espectral  S = TAT'. 
Puesto  que  Y = AX,  entonces  var(Y)  = ASA'  = AT  AT' A'.  Es  decir,  para  hallar 
los  autovectores  de  Y hay  que  rotar  los  autovectores  de  X por  A,  con  lo  que  obtenemos 
Aei  = (1,  — 3)'/\/T0  y Ae2  = (3,  l),/\/TO.  Luego  las  componentes  principales  de  Y son 
Wi  = (Xi  - 3X2)/^  y W2  = (3Xi  + X2)/Vl0. 
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PROBLEMA  4.12 


Supongamos  que  dos  observadores  miden  de  manera  independiente  unci  variable  alea- 
toria  Z,  pero  cada  uno  de  ellos  comete  un  error  de  medida.  Por  esta  razon  las  varia- 
bles finalmente  observadas  son  X\  = Z + e\  y X2  = Z + e 2,  donde  e\  y e2  denotan  los 
errores.  Supongamos  que  E(Z)  = 7,  var(Z)  = 1,  E(ej)  = 0,  var(et)  = a2,  i = 1,2, 
donde  a es  una  constante  positiva.  Las  variables  Z,  e\  y €2  son  independientes  entre 
si.  Denotemos  X = (X\ . X2)'. 

(a)  Calculense  la  esperanza  y la  matriz  de  varianzas-covarianzas  de  X. 

(b)  Calculense  las  componentes  principales  de  X. 

(c)  Detennmese,  enfuncion  de  a,  la  proporcion  de  variabilidad  total  explicada  por 
las  componentes  principales.  Interpretense  los  resultados  obtenidos. 


( SOLUC ION  ) 


(a)  Dado  que 


X = 


Xi 

X2 


Z + ei 
Z + e2 


1 1 0 
1 0 1 


£l 

£2 


= ay, 


tenemos  que 

E(X)  = A E(Y)  = (7,  7)' 


y 


Var(X)  = A Var(Y)  A' 


1 + a2  1 \ 

1 1 + a2  ) ■ 


(b)  Los  autovalores  de  Var(X)  son  Ai  = a2  + 2 y A2  = o2.  Las  componentes  principales  son 
Y\  = (Xi  + X2)/ V2  e Y2  = ( X\  — X2) / \/2.  Es  decir,  la  primera  componente  promedia  los 
datos  proporcionados  por  ambos  observadores. 

(c)  La  proporcion  de  VT  explicada  por  Yi  es 

2 + ct2  1 1 

2(1  + 0-2)  ~ 2 + 2(1  + o'2)' 

Esto  significa  que,  cuando  la  varianza  de  los  errores  aumenta,  es  decir,  la  incertidumbre  en 
la  observacion  de  Z aumenta,  se  necesita  en  mayor  medida  la  informacion  proporcionada  por 
ambos  observadores.  Mientras  que,  cuando  cr2  es  baja,  el  promedio  de  las  observaciones  X \ y 
X->  es  muy  informativo  acerca  de  Z. 
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PROBLEMA  4.13 


La  matriz  de  varianzas-covarianzas  muestrales  de  unos  datos  bivariantes  es 

f 2647.5  -530.9  \ 

“ V -530.9  127.4  ) ' 

Los  datos  aparecen  representados  en  el  diagrama  de  dispersion  de  la  Figura  4.5. 


Figura  4.5. 

Diagrama  de  dispersion  (Problema  4.13) 


(a)  Calculense  las  componentes  principales  a partir  de  S.  Interpretalas. 

(b)  Dibujese  sobre  el  grdfico  la  direccion  de  la  primera  componente  principal  y 
expliquese  que  significa  intuitivamente  esta  direccion. 

(c)  Si  cambio  las  unidades  de  medida  de  mis  variables  (por  ejemplo,  si  las  estan- 
darizo)  ovarian  las  componentes  principales  con  respecto  a las  de  las  variables 
originates? 


(a)  Es  sencillo  comprobar  que  los  autovalores  de  S son  Ai  = 2754.8  y A2  = 20.1  y 
que  dos  autovectores  normalizados  correspondientes  a estos  autovalores  son  respectivamente 
ei  ~ (—0.98,  0.2)'  y e2  ~ (—0.2,  — 0.98)'.  Por  tanto,  las  componentes  principales  de  S son 
Y1  = -0.98Xi  - O.2X2  e Y2  = -0.2Xi  - 0.98AT2. 
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(b)  La  direccion  de  la  primera  componente  principal  Y\  (o  equivalentemente  la  direccion  del 
autovector  ei)  es  la  direccion  de  mayor  variabilidad  en  la  muestra  (ver  Figura  4.6).  Como 
Yi  esta  determinada  en  gran  medida  por  la  variable  X\ , la  direccion  de  mayor  variabilidad  es 
aproximadamente  la  del  eje  de  abscisas,  aunque  esto  no  se  puede  apreciar  en  la  figura  por  las 
diferentes  escalas  de  los  ejes. 


Diagrama  de  dispersion  y componentes  principales  (Problema  4.13) 


Si  dibujo  una  recta  en  la  direccion  de  ei  y proyecto  los  datos  sobre  ella,  las  observaciones  uni- 
variantes  resultantes  tendran  mayor  varianza  que  las  proyecciones  en  cualquier  otra  direccion. 
En  este  problema,  como  Var(X i)  es  mucho  mayor  que  Var(X 2),  tenemos  que  Y\  esta  dado 
principalmente  por  X \ . Es  una  situation  clara  en  la  que  debemos  estandarizar  los  datos,  pues 
la  diferencia  entre  variabilidades  determina  las  componentes  principales  resultantes. 

(c)  Sf,  ya  sabemos  que  las  componentes  principales  calculadas  a partir  de  R no  tienen  por 
que  ser  las  mismas  que  las  obtenidas  a partir  de  S. 


PROBLEMA  4.14 


Dados  los  pares  de  puntos  {x%,  yi),  1 < i < n,  de  M2  demuestrese  que  la  recta  de 
regresion  que  se  obtiene  por  mmimos  cuadrados  ortogonales  coincide  con  la  primera 
componente  principal. 


( SOLUC ION  ) 

Dado  un  conjunto  de  n puntos  sobre  R2,  {(#»,  y),  1 < i < n},  las  rectas  de  regresion  con  las 
que  sin  duda  el  lector  estara  mas  familiarizado  son  las  que  se  obienen  por  mmimos  cuadrados 
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ordinarios  (recta  de  regresion  lineal  de  Y sobre  X y recta  de  regresion  lineal  de  X sobre  Y). 
En  este  ejercicio  se  trata  de  obtener  una  recta  que  sea  una  buena  aproximacion  de  la  nube  de 
puntos,  pero  sin  dar  preferencia  a ninguna  coordenada.  A diferencia  del  caso  de  la  regresion 
lineal,  la  funcion  que  debemos  minimizar  es  la  distancia,  sobre  la  perpendicular,  de  los  n pares 
puntos  a una  recta  de  ecuacion  Ax  + By  = C , donde  (A,  B)  es  su  vector  ortogonal.  De 
hecho,  para  que  el  problema  no  sea  indeterminado  exigimos  que  este  vector  sea  de  norma 
unidad.  De  esta  manera,  la  ecuacion  de  la  recta  es  ax  + fly  = 7,  donde  a = A/\/  A2  + B2, 
(3  = B / 1/A2  + B2,  7 = C / \J A2  + B2  (vease  la  Figura  4.7). 


Figura  4.7. 

Relacion  entre  la  regresion  ortogonal  y las  componentes  principales.  (Problema  4.14.) 


La  funcion  a minimizar  es  la  media,  d2,  de  las  distancias  ortogonales  (al  cuadrado),  df,  de  los 
puntos  (xi,  yi)  a la  recta  de  ecuacion  ax  + (3y  — 7 = 0, 

1 n ^ n 

d 2 = = ~^2{axi+ Pyi-'y)2 

n z ' n * — ' 

i=  1 i—1 

= a2  x2  + ft2  y2  + 72  + 2a(3xy  — 2a^x  — 2/3-yy. 

En  funcion  de  las  varianzas  y covarianzas  muestrales  de  ( X , Y),  hay  que  encontrar  a,  /3  y 7, 
tales  que 

d2  — a sx  (3  Sy  + 2a(3  sXy  + (ct  x (3  y 7)  (4.1) 

sea  minima.  Puesto  que  la  primera  parte  de  (4.1)  no  depende  de7y  (ax  + f3y  — 7)2  > 0,  se 
obtendra  el  mfnimo  para  7 = a x + (3  y.  Substituyendo  este  valor  de  7 en  la  ecuacion  de  la 
recta, 

a(x  - x)  + f3(y  - y)  = 0, 

obtenemos  que  la  recta  de  regresion  pasa  por  el  centra  de  gravedad  de  los  puntos.  Utilizando 
notacion  matricial,  el  problema  de  minimizar  c/2  es  equivalente  a encontrar  los  extremos  de  la 
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forma  cuadratica 


cP  = ( a (3  ) 


Sx  SXy 

SXy  Sy 


El  autovector  (a,  (3)  de  autovalor  maximo  sera  el  maximo  de  la  funcion  d2  y el  autovector 
de  autovalor  mmimo  sera  el  mmirno  que  buscamos.  Este  ultimo  proporciona  la  direccion 
ortogonal  a la  recta  Ax  + By  = C,  mientras  que  el  primero  proporciona  la  direccion  de  la 
recta  Ax  + B y = C.  Asf  pues,  esta  recta  es  la  direccion  de  maxima  dispersion  o variabilidad, 
o lo  que  es  lo  mismo,  su  vector  director  (que  es  el  autovector  de  autovalor  maximo)  son  los 
coeficientes  de  la  primera  componente  principal.  Asimismo  la  direccion  ortogonal  a la  recta 
Ax  + B y = C e sla  direccion  de  minima  dispersion,  es  decir,  el  vector  ortogonal  a esta  recta 
(que  es  el  autovector  de  auto  valor  mmimo)  son  los  coeficientes  de  la  segunda  componente 
principal. 


PROBLEMA  4.15 


Determinar  la  edad  de  un  drbol  contando  el  numero  de  anillos  de  una  seccion  del 
tronco  a traves  del  microscopio  es  un  trabajo  muy  laborioso.  For  ello  se  busca  la 
forma  de  predecir  la  edad  de  un  drbol  utilizando  otras  medidas  mas  sencillas  de  ob- 
tener.  La  Tabla  4.4  contiene  ocho  variables  medidas  sobre  151  olmos.  Las  variables 
X\ , . . . , X-j  son  las  mismas  que  las  descritas  en  el  Problema  4.5.  La  variable  y es  el 
numero  de  anillos  del  olmo.  Obtengase  un  modelo  de  regresion  que  permita  predecir 
la  edad  de  un  olmo  en  funcion  del  resto  de  variables. 


( SOLUC  ION  ) 

Sea  X la  matriz  de  datos  que  contiene  las  columnas  de  la  Tabla  4.4  correspondientes  a las 
variables  X\ , . . . , X7  e y el  vector  columna  que  contiene  la  variable  y.  Queremos  obtener  un 
modelo  de  regresion  lineal  multiple  que  permita  predecir  la  edad  del  arbol  (determinada  por  el 
numero  de  anillos)  en  funcion  de  los  regresores  X-\ , . . . , X7. 

Si  observamos  la  matriz  R de  correlaciones  entre  los  regresores 


1 . 0000 

0 .9889 

0 . 9145 

0 . 9234 

0 . 9218 

0 .9017 

0 . 8822 

0 . 9889 

1 .0000 

0 . 9256 

0.9285 

0 . 9228 

0 .9058 

0 .8896 

0 . 9145 

0 . 9256 

1 .0000 

0 . 8996 

0 . 8815 

0 .8979 

0 . 8664 

0 . 9234 

0 . 9285 

0 .8996 

1 . 0000 

0 . 9790 

0.9350 

0 . 9688 

0 . 9218 

0 . 9228 

0 .8815 

0 . 9790 

1 . 0000 

0 . 9455 

0 . 9149 

0 . 9017 

0 .9058 

0 .8979 

0 . 9350 

0 . 9455 

1 .0000 

0 . 8500 

0 . 8822 

0 .8896 

0 . 8664 

0 . 9688 

0 . 9149 

0 . 8500 

1 .0000 

vemos  que  estos  estan  altamente  correlacionados,  por  lo  que  es  posible  que  existan  problemas 
de  multicolinealidad.  Si  calculamos  el  numero  de  condicion  de  la  matriz  R,  es  decir,  la  rafz 
cuadrada  del  cociente  entre  el  maximo  autovalor  de  R y el  mmimo  autovalor  de  R,  vemos  que 
es  mayor  que  30.  Esto  nos  indica  que  R es  una  matriz  mal  condicionada  y,  efectivamente, 
vamos  a tener  problemas  de  multicolinealidad. 
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Tabla  4.4. 

Datos  del  Problema  4.15 


Xi 

*2 

x3 

X4 

Xb 

x7 

y 

Xi 

X2 

^3 

x4 

X5 

Xe 

x7 

y 

0.455 

0.365 

0.095 

0.514 

0.2245 

0.101 

0.15 

15 

0.595 

0.475 

0.14 

0.944 

0.3625 

0.189 

0.315 

9 

0.35 

0.265 

0.09 

0.2255 

0.0995 

0.0485 

0.07 

7 

0.6 

0.47 

0.15 

0.922 

0.363 

0.194 

0.305 

10 

0.53 

0.42 

0.135 

0.677 

0.2565 

0.1415 

0.21 

9 

0.555 

0.425 

0.14 

0.788 

0.282 

0.1595 

0.285 

11 

0.44 

0.365 

0.125 

0.516 

0.2155 

0.114 

0.155 

10 

0.615 

0.475 

0.17 

1.1025 

0.4695 

0.2355 

0.345 

14 

0.33 

0.255 

0.08 

0.205 

0.0895 

0.0395 

0.055 

7 

0.575 

0.445 

0.14 

0.941 

0.3845 

0.252 

0.285 

9 

0.425 

0.3 

0.095 

0.3515 

0.141 

0.0775 

0.12 

8 

0.62 

0.51 

0.175 

1.615 

0.5105 

0.192 

0.675 

12 

0.53 

0.415 

0.15 

0.7775 

0.237 

0.1415 

0.33 

20 

0.52 

0.425 

0.165 

0.9885 

0.396 

0.225 

0.32 

16 

0.545 

0.425 

0.125 

0.768 

0.294 

0.1495 

0.26 

16 

0.595 

0.475 

0.16 

1.3175 

0.408 

0.234 

0.58 

21 

0.475 

0.37 

0.125 

0.5095 

0.2165 

0.1125 

0.165 

9 

0.58 

0.45 

0.14 

1.013 

0.38 

0.216 

0.36 

14 

0.55 

0.44 

0.15 

0.8945 

0.3145 

0.151 

0.32 

19 

0.57 

0.465 

0.18 

1.295 

0.339 

0.2225 

0.44 

12 

0.525 

0.38 

0.14 

0.6065 

0.194 

0.1475 

0.21 

14 

0.625 

0.465 

0.14 

1.195 

0.4825 

0.205 

0.4  13 

0.43 

0.35 

0.11 

0.406 

0.1675 

0.081 

0.135 

10 

0.56 

0.44 

0.16 

0.8645 

0.3305 

0.2075 

0.26 

10 

0.49 

0.38 

0.135 

0.5415 

0.2175 

0.095 

0.19 

11 

0.46 

0.355 

0.13 

0.517 

0.2205 

0.114 

0.165 

9 

0.535 

0.405 

0.145 

0.6845 

0.2725 

0.171 

0.205 

10 

0.575 

0.45 

0.16 

0.9775 

0.3135 

0.231 

0.33 

12 

0.47 

0.355 

0.1 

0.4755 

0.1675 

0.0805 

0.185 

10 

0.565 

0.425 

0.135 

0.8115 

0.341 

0.1675 

0.255 

15 

0.5 

0.4 

0.13 

0.6645 

0.258 

0.133 

0.24 

12 

0.555 

0.44 

0.15 

0.755 

0.307 

0.1525 

0.26 

12 

0.355 

0.28 

0.085 

0.2905 

0.095 

0.0395 

0.115 

7 

0.595 

0.465 

0.175 

1.115 

0.4015 

0.254 

0.39 

13 

0.44 

0.34 

0.1 

0.451 

0.188 

0.087 

0.13 

10 

0.625 

0.495 

0.165 

1.262 

0.507 

0.318 

0.39 

10 

0.365 

0.295 

0.08 

0.2555 

0.097 

0.043 

0.1 

7 

0.695 

0.56 

0.19 

1.494 

0.588 

0.3425 

0.485 

15 

0.45 

0.32 

0.1 

0.381 

0.1705 

0.075 

0.115 

9 

0.665 

0.535 

0.195 

1.606 

0.5755 

0.388 

0.48 

14 

0.355 

0.28 

0.095 

0.2455 

0.0955 

0.062 

0.075 

11 

0.535 

0.435 

0.15 

0.725 

0.269 

0.1385 

0.25 

9 

0.38 

0.275 

0.1 

0.2255 

0.08 

0.049 

0.085 

10 

0.47 

0.375 

0.13 

0.523 

0.214 

0.132 

0.145 

8 

0.565 

0.44 

0.155 

0.9395 

0.4275 

0.214 

0.27 

12 

0.47 

0.37 

0.13 

0.5225 

0.201 

0.133 

0.165 

7 

0.55 

0.415 

0.135 

0.7635 

0.318 

0.21 

0.2 

9 

0.475 

0.375 

0.125 

0.5785 

0.2775 

0.085 

0.155 

10 

0.615 

0.48 

0.165 

1.1615 

0.513 

0.301 

0.305 

10 

0.36 

0.265 

0.095 

0.2315 

0.105 

0.046 

0.075 

7 

0.56 

0.44 

0.14 

0.9285 

0.3825 

0.188 

0.3 

11 

0.55 

0.435 

0.145 

0.843 

0.328 

0.1915 

0.255 

15 

0.58 

0.45 

0.185 

0.9955 

0.3945 

0.272 

0.285 

11 

0.53 

0.435 

0.16 

0.883 

0.316 

0.164 

0.335 

15 

0.59 

0.445 

0.14 

0.931 

0.356 

0.234 

0.28 

12 

0.53 

0.415 

0.14 

0.724 

0.3105 

0.1675 

0.205 

10 

0.605 

0.475 

0.18 

0.9365 

0.394 

0.219 

0.295 

15 

0.605 

0.47 

0.16 

1.1735 

0.4975 

0.2405 

0.345 

12 

0.575 

0.425 

0.14 

0.8635 

0.393 

0.227 

0.2 

11 

0.52 

0.41 

0.155 

0.727 

0.291 

0.1835 

0.235 

12 

0.58 

0.47 

0.165 

0.9975 

0.3935 

0.242 

0.33 

10 

0.545 

0.43 

0.165 

0.802 

0.2935 

0.183 

0.28 

11 

0.68 

0.56 

0.165 

1.639 

0.6055 

0.2805 

0.46 

15 

0.5 

0.4 

0.125 

0.6675 

0.261 

0.1315 

0.22 

10 

0.665 

0.525 

0.165 

1.338 

0.5515 

0.3575 

0.35 

18 

0.51 

0.39 

0.135 

0.6335 

0.231 

0.179 

0.2 

9 

0.68 

0.55 

0.175 

1.798 

0.815 

0.3925 

0.455 

19 

0.435 

0.395 

0.105 

0.3635 

0.136 

0.098 

0.13 

9 

0.705 

0.55 

0.2 

1.7095 

0.633 

0.4115 

0.49 

13 

0.495 

0.395 

0.125 

0.5415 

0.2375 

0.1345 

0.155 

9 

0.465 

0.355 

0.105 

0.4795 

0.227 

0.124 

0.125 

8 

0.465 

0.36 

0.105 

0.431 

0.172 

0.107 

0.175 

9 

0.54 

0.475 

0.155 

1.217 

0.5305 

0.3075 

0.34 

16 

0.435 

0.32 

0.08 

0.3325 

0.1485 

0.0635 

0.105 

9 

0.45 

0.355 

0.105 

0.5225 

0.237 

0.1165 

0.145 

8 

0.425 

0.35 

0.105 

0.393 

0.13 

0.063 

0.165 

9 

0.575 

0.445 

0.135 

0.883 

0.381 

0.2035 

0.26 

11 

0.545 

0.41 

0.125 

0.6935 

0.2975 

0.146 

0.21 

11 

0.355 

0.29 

0.09 

0.3275 

0.134 

0.086 

0.09 

9 

0.53 

0.415 

0.115 

0.5915 

0.233 

0.1585 

0.18 

11 

0.45 

0.335 

0.105 

0.425 

0.1865 

0.091 

0.115 

9 

0.49 

0.375 

0.135 

0.6125 

0.2555 

0.102 

0.22 

11 

0.55 

0.425 

0.135 

0.8515 

0.362 

0.196 

0.27 

14 

0.44 

0.34 

0.105 

0.402 

0.1305 

0.0955 

0.165 

10 

0.24 

0.175 

0.045 

0.07 

0.0315 

0.0235 

0.02 

5 

0.56 

0.43 

0.15 

0.8825 

0.3465 

0.172 

0.31 

9 

0.205 

0.15 

0.055 

0.042 

0.0255 

0.015 

0.012 

5 

0.405 

0.305 

0.085 

0.2605 

0.1145 

0.0595 

0.085 

8 

0.21 

0.15 

0.05 

0.042 

0.0175 

0.0125 

0.015 

4 

0.47 

0.365 

0.105 

0.4205 

0.163 

0.1035 

0.14 

9 

0.39 

0.295 

0.095 

0.203 

0.0875 

0.045 

0.075 

7 

0.385 

0.295 

0.085 

0.2535 

0.103 

0.0575 

0.085 

7 

0.47 

0.37 

0.12 

0.5795 

0.293 

0.227 

0.14 

9 

0.515 

0.425 

0.14 

0.766 

0.304 

0.1725 

0.255 

14 

0.46 

0.375 

0.12 

0.4605 

0.1775 

0.11 

0.15 

7 

0.37 

0.265 

0.075 

0.214 

0.09 

0.051 

0.07 

6 

0.325 

0.245 

0.07 

0.161 

0.0755 

0.0255 

0.045 

6 

0.36 

0.28 

0.08 

0.1755 

0.081 

0.0505 

0.07 

6 

0.525 

0.425 

0.16 

0.8355 

0.3545 

0.2135 

0.245 

9 

0.27 

0.195 

0.06 

0.073 

0.0285 

0.0235 

0.03 

5 

0.52 

0.41 

0.12 

0.595 

0.2385 

0.111 

0.19 

8 

0.375 

0.275 

0.09 

0.238 

0.1075 

0.0545 

0.07 

6 

0.4 

0.32 

0.095 

0.303 

0.1335 

0.06 

0.1 

7 

0.385 

0.29 

0.085 

0.2505 

0.112 

0.061 

0.08 

8 

0.485 

0.36 

0.13 

0.5415 

0.2595 

0.096 

0.16 

10 

0.7 

0.535 

0.16 

1.7255 

0.63 

0.2635 

0.54 

19 

0.47 

0.36 

0.12 

0.4775 

0.2105 

0.1055 

0.15 

10 

0.71 

0.54 

0.165 

1.959 

0.7665 

0.261 

0.78 

18 

0.405 

0.31 

0.1 

0.385 

0.173 

0.0915 

0.11 

7 

0.595 

0.48 

0.165 

1.262 

0.4835 

0.283 

0.41 

17 

0.5 

0.4 

0.14 

0.6615 

0.2565 

0.1755 

0.22 

8 

0.44 

0.35 

0.125 

0.4035 

0.175 

0.063 

0.129 

9 

0.445 

0.35 

0.12 

0.4425 

0.192 

0.0955 

0.135 

8 

0.325 

0.26 

0.09 

0.1915 

0.085 

0.036 

0.062 

7 

0.47 

0.385 

0.135 

0.5895 

0.2765 

0.12 

0.17 

8 

0.35 

0.26 

0.095 

0.211 

0.086 

0.056 

0.068 

7 

0.245 

0.19 

0.06 

0.086 

0.042 

0.014 

0.025 

4 

0.265 

0.2 

0.065 

0.0975 

0.04 

0.0205 

0.028 

7 

0.505 

0.4 

0.125 

0.583 

0.246 

0.13 

0.175 

7 

0.425 

0.33 

0.115 

0.406 

0.1635 

0.081 

0.1355 

8 

0.45 

0.345 

0.105 

0.4115 

0.18 

0.1125 

0.135 

7 

0.305 

0.23 

0.08 

0.156 

0.0675 

0.0345 

0.048 

7 

0.505 

0.405 

0.11 

0.625 

0.305 

0.16 

0.175 

9 

0.345 

0.255 

0.09 

0.2005 

0.094 

0.0295 

0.063 

9 

0.53 

0.41 

0.13 

0.6965 

0.302 

0.1935 

0.2 

10 

0.405 

0.325 

0.11 

0.3555 

0.151 

0.063 

0.117 

9 

0.425 

0.325 

0.095 

0.3785 

0.1705 

0.08 

0.1 

7 

0.375 

0.285 

0.095 

0.253 

0.096 

0.0575 

0.0925 

9 

0.52 

0.4 

0.12 

0.58 

0.234 

0.1315 

0.185 

8 

0.565 

0.445 

0.155 

0.826 

0.341 

0.2055 

0.2475 

10 

0.475 

0.355 

0.12 

0.48 

0.234 

0.1015 

0.135 

8 

0.55 

0.45 

0.145 

0.741 

0.295 

0.1435 

0.2665 

10 

0.565 

0.44 

0.16 

0.915 

0.354 

0.1935 

0.32 

12 

0.65 

0.52 

0.19 

1.3445 

0.519 

0.306 

0.4465 

16 

0.595 

0.495 

0.185 

1.285 

0.416 

0.224 

0.485 

13 

0.56 

0.455 

0.155 

0.797 

0.34 

0.19 

0.2425 

11 

0.475 

0.39 

0.12 

0.5305 

0.2135 

0.1155 

0.17 

10 

0.475 

0.375 

0.13 

0.5175 

0.2075 

0.1165 

0.17 

10 

0.31 

0.235 

0.07 

0.151 

0.063 

0.0405 

0.045 

6 

0.49 

0.38 

0.125 

0.549 

0.245 

0.1075 

0.174 

10 

0.555 

0.425 

0.13 

0.7665 

0.264 

0.168 

0.275 

13 

0.46 

0.35 

0.12 

0.515 

0.224 

0.108 

0.1565 

10 

0.4 

0.32 

0.11 

0.353 

0.1405 

0.0985 

0.1 

8 

0.28 

0.205 

0.08 

0.127 

0.052 

0.039 

0.042 

9 

0.595 

0.475 

0.17 

1.247 

0.48 

0.225 

0.425 

20 

0.175 

0.13 

0.055 

0.0315 

0.0105 

0.0065 

0.0125 

5 

0.57 

0.48 

0.175 

1.185 

0.474 

0.261 

0.38 

11 

0.17 

0.13 

0.095 

0.03 

0.013 

0.008 

0.01 

4 

0.605 

0.45 

0.195 

1.098 

0.481 

0.2895 

0.315 

13 

0.59 

0.475 

0.145 

1.053 

0.4415 

0.262 

0.325 

15 

0.6 

0.475 

0.15 

1.0075 

0.4425 

0.221 

0.28 

15 

www.FreeLibros.me 


ANALISIS  DE  COMPONENTES  PRINCIPALES 


91 


eig (R) = 0.0043  0.0105  0.0337  0.1080  0.1467  0.1972  6.4995 

sqrt (max (eig (R) ) /min (eig(R) ) )=38.6608 


Un  procedimiento  que  se  utiliza  para  el  tratamiento  de  la  multicolinealidad  es  transformar  las 
variables  mediante  componentes  principales,  eliminar  las  menos  informativas  y expresar  la 
variable  respuesta  en  funcion  de  las  componentes  que  resumen  mayor  variabilidad. 

Para  obtener  las  componentes  principales  utilizaremos  la  funcion  comp  y nos  quedaremos  con 
las  dos  primeras  componentes,  Yj  e K>,  calculadas  a partir  de  la  matriz  de  covarianzas,  es  decir, 
las  dos  primeras  columnas  de  Yl,  que  explican  el  98.7753%  de  la  variabilidad  de  los  datos. 
Dejamos  para  el  lector  la  interpretation  de  estas  dos  primeras  componentes. 


[T1 , Yl , acuml , T2 , Y2 , acum2] =comp (X) 


T1  = 


0.2149 

0 . 1781 

0 . 0636 

0 . 8445 

0 .3181 

0 . 1705 

0.2730 

-0.6148 

-0.4740 

-0 . 1182 

0.2667 

-0.2090 

-0.2970 

0.4247 

0.4125 

0.3411 

0 . 0791 

-0 . 1021 

-0 .4944 

-0.3734 

0.5594 

0 . 1264 

0 .0066 

-0 . 2245 

-0 . 0866 

0 .6127 

-0 . 7412 

-0 . 0346 

-0 . 0792 

-0 . 0492 

0 . 1832 

-0 . 4418 

0 .4805 

0.3496 

0.6398 

-0.3997 

0.3499 

0 .7945 

0.0381 

0 . 0641 

-0.2508 

-0 . 1347 

-0 .4730 

0 .7088 

-0.5105 

-0 . 0334 

0 . 0142 

0 .0932 

0 . 0575 

acuml  = 

97 . 5267 

98 . 7753 

99.5667 

99.8136 

99 . 9042 

99 . 9606 

100.0000 

Para  realizar  la  regresion  lineal  multiple 

y = ft o + fti  Yi  + /?2  Y2  + u, 

donde  u es  el  termino  de  perturbacion  aleatoria,  construimos  la  matriz  del  diseno 
regresores= [ones  ( 151 , 1 ) Yl (1:2) ] 
y escribimos: 

[b, bint , r, rint , stats]  = regress (y, regresores ) 
rcoplot (r, rint) 

que  proporcionan  el  vector  b=  (10. 3907, -19. 9826, 11. 7702)  de  coeficientes  ft3  esti- 
mados.  Por  tanto,  el  modelo  ajustado  es  y = 10.3907  — 19.9826  Y\  + 11.7702  Y 2. 

El  vector  r contiene  los  residuos  del  modelo  y rint  son  los  intervalos  de  confianza  para  los 
residuos.  El  vector  stats  contiene  los  resultados  del  contraste  de  signification  del  modelo, 
es  decir,  el  valor  del  coeficiente  de  determination  R2,  el  valor  del  estadfstico  F de  Fisher 
y el  p-valor  asociado.  La  instruccion  rcoplot  permite  obtener  un  grafico  de  los  residuos, 
junto  con  los  intervalos  de  confianza  al  95%  (vease  la  Figura  4.8).  Los  triangulos  son  posibles 
outliers. 
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Residual  Case  Order  Plot 


20  40  60  80  100  120  140 

Case  Number 

Figura  4.8. 

Regresion  en  componentes  principales.  Grafico  de  residuos  (Problema  4.15.) 
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Distancias  estadist  cas  y 
escalado  multidimensional 


(MDS) 


La  primera  parte  de  este  capi'tulo  sirve  de  introduccion  para  dos  tecnicas  de  represen- 
tacion de  los  individuos  de  un  conjunto  finito  £.  Estas  representaciones  son  de  dos 
tipos: 


• Una  representacion  a lo  largo  de  unos  ejes  reales  que  describe  las  analogi'as  y 
diferencias  entre  los  individuos  (elementos  de  £).  Los  ejes  se  inteipretan  como 
factores  o causas  de  variabilidad  y la  informacion  obtenida  es  de  tipo  espacial. 
Los  problemas  de  la  segunda  parte  de  este  Capi'tulo  versan  sobre  este  tenia. 

• Una  representacion  como  un  grafo  con  estructura  de  arbol  (dendrograma),  como 
forma  de  representar  clasificaciones  jerarq uicas  entre  los  individuos.  La  infor- 
macion es  de  tipo  agrupativo.  Los  problemas  del  Capi'tulo  6 tratan  esta  tecnica. 

El  punto  de  partida  en  ambos  casos  es  una  matriz  de  distancias  D = {()rj),  de  di- 
mension n x n,  siendo  n el  numero  de  individuos  del  conjunto  £.  Denotaremos  por 
D!2'  = (5 ?•),  la  matriz  de  cuadrados  de  distancias.  El  concepto  de  distancia  entre 
objetos  o individuos  observados  permite  interpretar  geometricamente  muchas  tecni- 
cas clasicas  de  Analisis  Multivariante,  equivalentes  a representar  estos  objetos  como 
puntos  de  un  espacio  metrico  adecuado. 

Similaridades,  disimilaridades  y distancias. 

Una  disimilaridad  o casi-metrica  es  una  funcion  <5  : £ x £ — » M+  tal  que 

• 5ij  = Sji,  para  todo  i,j, 

• 5 a = 0.  para  todo  i. 
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Una  semi-metrica  es  una  disimilaridad  que  cumple 

• Sij  < 5ik  + Skj,  para  todo  i,  j,  k. 

Una  metrica  es  una  semi-metrica  que  cumple 

• Sij  = 0 i = j,  pai'a  todo  i,  j. 

Una  ultrametrica  es  una  disimilaridad  que  cumple 

• < ma x{5ik,5kj},  pai'a  todo  i,  j , k. 

En  general,  la  palabra  distancia  puede  hacer  referenda  tanto  a una  metrica  como  a 
una  semi-metrica  . Se  usaran  los  terminos  tecnicos  de  casi-metrica  , semi-metrica  y 
metrica  cuando  sea  necesario  precisar. 

Una  similaridad  es  una  funcion  s : £ x £ — > M tal  que 

• 0 < < sa  = 1,  pai'a  todo  i.j, 

• = Sji,  pai'a  todo  i,j. 

La  siguiente  transformacion  permite  obtener  una  distancia  de  forma  natural  a partir  de 
una  similaridad  .sl?: 

Sij  — sa  + Sjj  2 Sij.  (5.1) 

Se  dice  que  una  distancia  <5  cumple  la  propiedad  eucltdea  si  existe  una  biyeccion  'ip  : 
£ — i E C pai'a  algun  p > 1 tal  que 

S(x,y)  = \\i>(x)  - ip{y)\\,  para  todo  x,y  G £, 

donde  II  • II  es  la  norma  euclfdea  en  MU 


Escalado  multidimensional  metrico. 

El  escalado  multidimensional  metrico  (o  analisis  de  coordenadas  principales)  es  una 
tecnica  de  Analisis  Multivai'iante  cuyo  objetivo  es  obtener  una  representacion  euclfdea, 
exacta  o aproximada,  de  los  elementos  de  un  conjunto  £ de  n objetos,  a partir  de  una 
matriz  de  disimilaridades  D sobre  £. 

Una  representacion  eucltdea  exacta  en  dimension  p > 1 de  (£ . D)  es  un  conjunto  de 
n puntos  xi, . . . , xn  del  espacio  euclfdeo  MM,  que  verifica  que  las  distancias  euclfdeas 
entre  los  x,  son  iguales  a los  elementos  correspondientes  de  la  matriz  D. 

En  general  una  matriz  de  disimilaridades  D no  tiene  ninguna  representacion  euclfdea 
exacta,  a menos  que  n = 2.  Cuando  no  es  posible  una  representacion  exacta,  o bien 
cuando  la  representacion  exacta  es  de  dimension  grande,  se  hace  necesario  obtener  una 
representacion  aproximada  (de  dimension  mas  reducida).  Este  aspecto  se  relaciona 
directamente  con  el  problema  de  reduccion  de  la  dimension  estudiado  en  el  Capftulo  4. 
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PROBLEMA  5.1 


Se  desea  averiguar  si  una  muestra  de  20  individuos  procede  de  una  normal  trivarian- 
te.  Para  ello  se  calculan  las  distancias  de  Mahalanobis  de  cada  obsetvacion  a la 
media  muestral.  En  la  Figura  5.1  se  puede  ver  un  qq-plot  de  estas  distancias  frente  a 
cuantiles  de  la  l Que  se  puede  deducir  del  grdfico? 


0 2 4 6 8 10  12  14 


Figura  5.1. 

qq-plot  de  distancias  de  Mahalanobis  (Problema  5.1) 


( SOLUC  ION  ) 

Si  X ~ A^(jU,  S)  entonces  la  distancia  de  Mahalanobis  de  X a su  media  verifica: 

<4^(x,  /*)  = (x  - m)'s-1(x  - p)  ~ *3 . 

Como  p y £ son  desconocidos  los  sustituimos  por  sus  analogos  muestrales,  xyS,  y tenemos 
que  los  cuadrados  de  las  distancias  de  Mahalanobis  de  las  observaciones  x,;  a la  media  x,  dados 
por 

(xj  - x)'S_1(xi  - x), 

deberian  ser  (aproximadamente)  una  muestra  de  una  x|.  Por  tanto,  los  puntos  del  qq-plot  se 
deberian  ajustar  a una  lmea  recta.  Como  no  es  asf,  concluimos  que  la  muestra  no  procede  de 
una  normal. 

Observacion.  La  recta  de  la  Figura  5.1  no  es  la  bisectriz  del  primer  cuadrante.  Esto  es  porque 
el  grafico  fue  generado  con  la  orden  qqplot  de  Matlab.  Por  ello  la  recta  dibujada  es  la  que 
une  la  pareja  formada  por  los  primeros  cuartiles  de  ambas  muestras  con  la  pareja  de  terceros 
cuartiles. 
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PROBLEMA  5.2 


La  Tabla  4.1  contiene  una  serie  de  indicadores  de  distintos  paises  del  mundo.  Calcu- 
lese  la  matriz  de  distancias  de  Mahalanobis  entre  los  20  primeros  paises. 


SOLUCION  ) 

Construimos  una  funcion  Matlab  que  calcule  esta  matriz  de  distancias. 

% La  funcion  D=maha(X)  calcula  una  matriz  de  cuadrados  de 
% distancias.  El  elemento  (i,j)  de  la  matriz  D contiene  el 
% cuadrado  de  la  distancia  de  Mahalanobis  entre  la  fila  "i" 

% y la  fila  "j"  de  la  matriz  X. 

% Entradas : una  matriz  X de  dimension  nxp. 

% Salidas:  una  matriz  D de  dimension  nxn. 

function  D = maha(X) 

[n, p]  = size  (X)  ; 

% calculo  del  vector  de  medias  y de  la  matriz  de  covarianzas 
% de  X : 

S = cov (X, 1)  ; 

% calculo  de  las  distancias  de  Mahalanobis  (al  cuadrado) : 

D = zeros (n) ; 
invS  = inv (S) ; 
for  i = 1 : n 

for  j = i+1 : n 

D ( i , j ) = (X (i , : ) -X ( j , : ) ) *invS* (X ( i , : ) -X ( j , : ) ) ' ; 

end 

end 

D = D+D' ; 

Habfamos  llamado  X a la  matriz  de  datos  del  Problema  4.4.  Para  obtener  las  distancias  de 
Mahalanobis  de  los  20  primeros  paises  haremos: 


Z=X (1:20,  :)  ; 
D=maha  (Z)  ; 


Observando  la  matriz  D,  (',que  paises  crees  que  son  mas  parecidos?  En  el  Problema  6.5  estu- 
diaremos  mas  detalladamente  las  semejanzas  entre  estos  paises. 
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PROBLEMA  5.3 


Frecuentemente  en  las  aplicaciones  nos  encontramos  con  una  variable  categorica  no- 
minal con  k estados  excluyentes  medida  sobre  una  muestra  de  n = n\  + . . . + ng 
individuos  provenientes  de  g poblaciones.  Se  desea  obtener  una  medida  de  disimila- 
ridad  entre  estas  poblaciones.  En  estas  condiciones,  el  vector  de  frecuencias  de  cada 
poblacion  n,  = (nn, . . . , no-),  para  i = 1, . . . , g,  tiene  una  distribucion  conjunta 
multinomial  con pardmetros  (n*,  pj),  donde  rii  = nn  + . . Pi  = {pn,  ■ ■ ■ ,Pik)- 

Dos  medidas  de  disimilaridad  son  la  distancia  de  Bhattacharyya,  conocida  en  genetica 
como  distancia  de  Cavalli-Sforza,  cuya  expresion  es: 

( k 

d2tj  = arccos  ^ ^JvuPji 
\l= l 

y la  distancia  de  Balakrishnan-Sanghvi  : 

3 PU+Pjl 

La  Tabla  5.1  contiene  las  proporciones  genicas  (observadas)  de  los  grupos  sangumeos 
correspondientes  a 10  poblaciones.  Obtenganse  las  distancias  de  Bhattacharyya  y de 
Balakrishnan-Sanghvi  entre  estas  poblaciones. 


Tabla  5.1. 

Proporciones  genicas  entre  10  poblaciones  (Problema  5.3). 


Poblacion 

grupo  A 

grupo  AB 

grupo  B 

grupo  O 

1. 

Irancesa 

0.21 

0.06 

0.06 

0.67 

2. 

checa 

0.25 

0.04 

0.14 

0.57 

3. 

germanica 

0.22 

0.06 

0.08 

0.64 

4. 

vasca 

0.19 

0.04 

0.02 

0.75 

5. 

china 

0.18 

0.00 

0.15 

0.67 

6. 

ainu 

0.23 

0.00 

0.28 

0.49 

7. 

esquimal 

0.30 

0.00 

0.06 

0.64 

8. 

negra  USA 

0.10 

0.06 

0.13 

0.71 

9. 

espanola 

0.27 

0.04 

0.06 

0.63 

10. 

egipcia 

0.21 

0.05 

0.20 

0.54 

( SOLUC  ION  ) 

Llamamos  X a la  Tabla  5.1,  ya  introducida  en  Matlab.  Calculamos  la  matriz  de  cuadrados  de 
distancias  de  Bhattacharyya  de  la  siguiente  forma: 


q = sqrt (X) ; 

DB2  = acos (q*q' ) ; 
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La  matriz  de  cuadrados  de  distancias  de  Balakrishnan-Sanghvi  se  obtiene  asi: 


[n, p]  = size (X) ; 

DBS2  = zeros (n) ; 
for  i = l:n 

for  j = l:i-l 

if  X(i, : ) -X ( j , : ) ==0, 

Y = 0; 
else 

Y = (X (i# : ) -X ( j , :)) . / sqrt (X  (i , : ) +X ( j , : ) ) ; 

end 

DBS2 (i , j ) = 2*Y*Y' ; 
end 

end 

DBS2  = DBS2+DBS2 ' ; 


Por  ejemplo,  la  matriz  de  cuadrados  de  distancias  de  Bhattacharyya  es: 


0 0.1567 
0.1567  0 
0.0435  0.1156 
0.1246  0.2665 
0.2863  0.2240 
0.3966  0.2605 
0.2622  0.2476 
0.1850  0.2093 
0.0800  0.1364 
0.2204  0.0897 


0.0435  0.1246 
0.1156  0.2665 
0 0.1660 
0.1660  0.0000 
0.2715  0.3221 
0.3636  0.4732 
0.2608  0.2607 
0.1769  0.2555 
0.0778  0.1517 
0.1787  0.3359 


0.2863  0.3966 
0.2240  0.2605 
0.2715  0.3636 
0.3221  0.4732 
0 0.1933 
0.1933  0 

0.1896  0.3101 
0.2710  0.3701 
0.2653  0.3642 
0.2491  0.2422 


0.2622  0.1850 
0.2476  0.2093 
0.2608  0.1769 
0.2607  0.2555 
0.1896  0.2710 
0.3101  0.3701 
0 0.3608 
0.3608  0.0000 
0.2024  0.2438 
0.3226  0.1997 


0.0800  0.2204 
0.1364  0.0897 
0.0778  0.1787 
0.1517  0.3359 
0.2653  0.2491 
0.3642  0.2422 
0.2024  0.3226 
0.2438  0.1997 
0 0.2211 
0.2211  0 


Los  individuos  mas  cercanos  (segun  la  distancia  de  Battacharyya  medida  sobre  sus  proporcio- 
nes  genicas)  son  las  poblaciones  francesa  y germanica  con  3 = 0.0435,  mientras  que  los 
mas  alejados  son  las  poblaciones  francesa  y ainu  con  8f  6 = 0.3966.  Estudiaremos  con  mas 
detalle  las  proximidades  entre  estos  individuos  en  los  Problemas  5.9  y 6.3. 


PROBLEMA  5.4 


En  muchas  situaciones  las  variables  que  se  observan  sobre  un  conjunto  de  individuos 
son  de  naturaleza  binaria.  En  estos  casos  para  poder  disponer  de  una  matriz  de 
distancias  entre  individuos  se  utilizan  los  coeficientes  de  similaridad. 

El  coeficiente  de  similaridad  entre  el  individuo  i y el  individuo  j,  Sij,  se  calcula  a 
partir  de  las  frecuencias: 

a = “numero  de  variables  con  respuesta  1 en  ambos  individuos  ”, 
b = “numero  de  variables  con  respuesta  0 en  el  primer  individuo  y con  respuesta  1 en 
el  segundo  individuo  ”, 

c = “numero  de  variables  con  respuesta  1 en  el  primer  individuo  y con  respuesta  0 en 
el  segundo  individuo  ”, 

d = “ numero  de  variables  con  respuesta  0 en  ambos  individuos” . 


www.FreeLibros.me 


DISTANCES  ESTADISTICAS  Y ESCALADO  MULTIDIMENSIONAL  (MDS) 


99 


Existen  muchisimos  coeficientes  de  similaridad  (vease  Cuadras  2004),  pero  los  de 
Sokal-Michener  y de  Jaccard  son  especialmente  interesantes  porque  dan  lugar  a una 
configuracion  euclidea  (vease  Problema  5.6).  Se  definen  como: 

a + d a 

Sokal  y Michener:  = , Jaccard:  .sr,  = , 

p a+o+c 

donde  p es  el  numero  de  variables  observadas.  Aplicando  uno  de  estos  coeficientes  a 
un  conjunto  de  n individuos  se  obtiene  una  matriz  de  similaridades  S = ( s?y)nxn ■ 
Utilizando  la  formula  (5.1)  podemos  obtener  una  distancia  a partir  de  un  coeficiente 
de  similaridad  . Este  cdlculo  puede  realizarse  matricialmente: 

D(2)  = 2(l„l  'n-S). 

Se  considera  el  siguiente  conjunto  de  seis  individuos  formado  por  cinco  animates, 
leon,  jirafa,  vaca,  oveja,  gato  domestico,  junto  con  el  hombre.  Se  miden  seis  variables 
binarias  sobre  estos  individuos:  X\  =tiene  cola,  X2  =es  salvaje,  X:>  =tiene  el  cuello 
largo,  X4  =es  animal  de  granja,  X~,  =es  carnivoro,  Xq  =camina  sobre  cuatro  patas. 

(a)  Obtengase  la  matriz  de  datos. 

(b)  Calculense  los  coeficientes  de  similaridad  de  Sokal-Michener  y de  Jaccard  para 
cada  par  de  individuos  y obtenganse  las  matrices  de  distancias  asociadas. 


( SOLUC ION  ) 


(a)  Consideremos  el  conjunto  de  individuos 

£ = { leon,  jirafa,  vaca,  oveja,  gato  domestico,  hombre } , 


entonces,  la  matriz  de  datos  es 

/ 1 1 0 0 1 1 \ 

1110  0 1 
10  0 10  1 

10  0 10  1 

1 0 0 0 1 1 

\ 0 0 0 0 1 0 / 


(5.2) 


Observad  que  los  individuos  vaca  y oveja  puntuan  igual,  por  lo  que  cualquier  coeficiente  de 
similaridad  entre  ellos  debera  valer  1. 
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(b)  Podemos  construir  dos  funciones  Madab  que  calculen  estos  coeficientes  de  similaridad: 
% SOKAL 

% Dada  una  matriz  de  datos  binarios  X (n,p),  la  funcion  S=sokal (X) 
% devuelve  la  matriz  de  similaridades , segun  el  coeficiente  de 
% similaridad  de  Sokal  y Michener,  entre  los  n individuos . 

function  S = sokal (X) 

[n,  p]  = size  (X)  ; 

J = ones (n, p) ; 
a = X*X' ; 
d = (J-X) * (J-X)  ' ; 

S = (a+d)/p; 

% JACCARD 

% Dada  una  matriz  de  datos  binarios  X (n,p),  la  funcion 
% S=jaccard(X)  devuelve  la  matriz  de  similaridades,  segun  el 
% coeficiente  de  similaridad  de  Jaccard,  entre  los  n individuos. 

function  S = jaccard (X) 

[n, p]  = size (X) ; 

J = ones (n, p) ; 
a = X*X' ; 
d = (J-X) * (J-X) ' ; 

S = a . / (p*ones (n) -d) ; 

Si  llamamos  X a la  matriz  (5.2),  las  instrucciones  en  Matlab  son: 

[n, p]  = size  (X)  ; 

J = ones (n) ; 

S_Sokal  = sokal (X) ; 

D2_Sokal  = 2* (J-S_Sokal)  ; 

S_Jaccard  = jaccard(X); 

D2_Jaccard  = 2* ( J-S_Jaccard) ; 

Por  ejemplo,  las  matrices  de  similaridades  son: 

S Sokal  = 


1 . 0000 

0 . 6667 

0 . 5000 

0 . 5000 

0 . 8333 

0 . 5000 

0 . 6667 

1 . 0000 

0 . 5000 

0 . 5000 

0 . 5000 

0 . 1667 

0 . 5000 

0 . 5000 

1 . 0000 

1 . 0000 

0.6667 

0 . 3333 

0 . 5000 

0 . 5000 

1 . 0000 

1 . 0000 

0.6667 

0.3333 

0 . 8333 

0 . 5000 

0 . 6667 

0 . 6667 

1 . 0000 

0 . 6667 

0 . 5000 

0 . 1667 

0 .3333 

0.3333 

0.6667 

1 . 0000 

Jaccard  = 

1 . 0000 

0 . 6000 

0.4000 

0.4000 

0 . 7500 

0.2500 

0 . 6000 

1 . 0000 

0.4000 

0.4000 

0.4000 

0 

0.4000 

0.4000 

1 . 0000 

1 . 0000 

0 . 5000 

0 

0.4000 

0.4000 

1 . 0000 

1 . 0000 

0 . 5000 

0 

0 . 7500 

0.4000 

0 . 5000 

0 . 5000 

1 . 0000 

0.3333 

0.2500 

0 

0 

0 

0.3333 

1 . 0000 
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Como  ya  se  ha  comentado  anteriormente,  el  par  de  animales  ( vaca , oveja)  es  el  mas  pare- 
cido  con  sf0^0,1  = s^ffcard  = 1.  Les  sigue  el  par  ( leon , gato ) con  sf^al  = 0.8333  y 
sJaccard  _ q 75  £n  jos  Problemas  5.11  y 6.4  seguiremos  estudiando  las  proximidades  entre 
estos  individuos. 


PROBLEMA  5.5 


Una  situation  muy  habitual  en  andlisis  multivariante  es  disponer  de  un  conjunto  de 
datos  mixto,  es  decir,  un  conjunto  de  individuos  sobre  los  que  se  ban  obsetyado  tanto 
variables  cuantitativas  como  cualitativas  ( o categoricas)  . En  estos  casos  es  de  gran 
utilidad  la  distancia  de  Gower,  cuyo  cuadrado  se  define  como  d'f.  = 1 — Sij,  donde 


EfeLi  (!  - I Xih  - Xjh\/Gh)  + a + q 
Pi  + (p2  ~ d)+p3 


(5.3) 


es  el  coeficiente  de  similaridad  de  Gower,  p\  es  el  numero  de  variables  cuantitativas 
continuas,  p2  es  el  numero  de  variables  binarias,  p3  es  el  numero  de  variables  cualita- 
tivas (no  binarias),  a es  el  numero  de  coincidencias  (1,1 ) en  las  variables  binarias,  d 
es  el  numero  de  coincidencias  (0, 0)  en  las  variables  binarias,  a es  el  numero  de  coin- 
cidencias en  las  variables  cualitativas  (no  binarias)  y Gh  es  el  rango  (o  recorrido)  de 
la  h-esima  variable  cuantitativa. 

Si  pi  = p3  = 0 entonces  (5.3)  coincide  con  el  coeficiente  de  similaridad  de  Jaccard. 
Si  se  consideran  las  variables  binarias  como  categoricas  (es  decir,  pi  = p-2  = 0) 
entonces  (5.3)  coincide  con  el  coeficiente  de  similaridad  de  Sokal  y Michener . 

La  Tabla  5.2  contiene  information  sobre  50  jugadores  de  futbol  de  la  liga  espahola 
(temporada  2006/07).  Las  variables  observadas  son: 

X\  = numero  de  goles  marcados,  X2  =edad  (ahos),  X3  =altura  (m),  X4  =peso 
(kg),  X5  =piema  buena  del  jugador  (1  =derecha,  0 =izquierda),  X$  =nacionali- 
dad  (1  =Argentina,  2 =Brasil,  3 =Camerun,  4 =Italia,  5 =Espaha,  6 =Francia, 
7 =Uruguay,  8 = Portugal , 9 =Inglaterra ),  X7  =tipo  de  estudios  (1  =sin  estudios, 
2 =bdsicos,  3 =medios,  4 =superiores). 

Obtengase  la  matriz  de  distancias  de  Gower  entre  estos  individuos. 


( SOLUC ION  ) 

Una  funcion  Matlab  que  calcula  el  coeficiente  de  similaridad  de  Gower  es: 

% La  funcion  S=gower (X, pi , p2 , p3 , k)  calcula  una  matriz  de 
% similaridades , segun  el  coeficiente  de  similaridad  de  Gower. 

% Entradas : 

% X matriz  de  datos  mixtos,  cuyas  columnas  deben  estar 
% ordenadas  de  la  forma:  continuas,  binarias, 

% categoricas, 
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Tabla  5.2. 

Variables  observadas  sobre  jugadores  de  la  liga  espanola  de  futbol  2006/07. 


Jugador 

Ad 

a2 

a3 

a4 

Ag 

Ae 

a7 

i. 

Ronaldinho 

15 

26 

1.78 

71 

1 

2 

2 

2. 

Etoo 

21 

25 

1.8 

75 

0 

3 

2 

3. 

Xavi 

6 

26 

1.7 

68 

0 

5 

4 

4. 

Messi 

7 

19 

1.69 

67 

0 

1 

3 

5. 

Puyol 

1 

28 

1.78 

78 

0 

5 

3 

6. 

Raul 

7 

29 

1.8 

73.5 

1 

5 

3 

7. 

Ronaldo 

18 

30 

1.83 

82 

0 

2 

1 

8. 

Beckham 

4 

31 

1.8 

67 

0 

9 

3 

9. 

Casillas 

0 

25 

1.85 

70 

0 

5 

4 

10. 

Cannavaro 

0 

33 

1.76 

75.5 

0 

4 

2 

11. 

Torres 

24 

22 

1.83 

70 

0 

5 

4 

12. 

Ajguero 

14 

18 

1.72 

68 

0 

1 

3 

13. 

Maxi 

10 

25 

1.8 

79 

0 

1 

3 

14. 

Pablq 

3 

25 

1.92 

80 

0 

5 

4 

15. 

Maniche 

3 

29 

1.73 

69 

0 

8 

2 

16. 

Morientes 

13 

30 

1.86 

79 

0 

5 

3 

17. 

Joaquin 

5 

25 

1.79 

75 

0 

5 

4 

18. 

Villa 

22 

24 

1.75 

69 

0 

5 

3 

19. 

Ayala 

1 

33 

1.77 

75.5 

0 

1 

1 

20. 

Canizares 

0 

36 

1.81 

78 

1 

5 

3 

21. 

Jesus  Navas 

2 

20 

1.7 

60 

0 

5 

3 

22. 

Puerta 

6 

21 

1.83 

74 

1 

5 

3 

23. 

Javi  Navarro 

7 

32 

1.82 

75 

0 

5 

3 

24. 

Daniel  Alves 

2 

23 

1.71 

64 

0 

2 

2 

25. 

Kanoute 

12 

29 

1.92 

82 

1 

6 

1 

26. 

Valeron 

9 

31 

1.84 

71 

0 

5 

3 

27. 

Arizmendi 

8 

22 

1.92 

78 

0 

5 

3 

28. 

Capdevila 

3 

28 

1.81 

79 

1 

5 

4 

29. 

Riki 

7 

26 

1.86 

80 

0 

5 

3 

30. 

Coloccini 

2 

24 

1.82 

78 

1 

1 

2 

31. 

Riquelme 

10 

28 

1.82 

75 

0 

1 

2 

32. 

Forlan 

17 

27 

1.72 

75 

0 

7 

3 

33. 

Cani 

4 

25 

1.75 

69.5 

0 

5 

3 

34. 

Javi  Venta 

0 

30 

1.8 

73 

1 

5 

3 

35. 

Tachinardi 

4 

31 

1.87 

80 

1 

4 

4 

36. 

Pandiani 

6 

30 

1.84 

74 

0 

7 

1 

37. 

Tamudo 

10 

28 

1.77 

74 

0 

5 

3 

38. 

De  la  Pena 

2 

30 

1.69 

69 

0 

5 

3 

39. 

Luis  Garcia 

8 

25 

1.8 

68 

0 

5 

3 

40. 

Jonathan 

4 

21 

1.8 

72 

1 

5 

3 

41. 

Aimar 

6 

26 

1.68 

60 

1 

1 

2 

42. 

Diego  Milito 

9 

27 

1.81 

78 

0 

1 

2 

43. 

Saviq 

3 

32 

1.71 

68 

1 

2 

2 

44. 

Sergio  Garcia 

7 

23 

1.76 

69 

0 

5 

3 

45. 

Zapater 

5 

21 

1.73 

70.5 

0 

5 

3 

46. 

Edu. 

6 

27 

1.82 

74 

1 

2 

3 

47. 

Juanito 

2 

30 

1.83 

80 

0 

5 

4 

48. 

Melli 

5 

22 

1.81 

78 

0 

5 

3 

49. 

Capi 

7 

29 

1.75 

73 

0 

5 

2 

50. 

Doblas 

0 

25 

1.84 

78 

0 

5 

3 

% 

Pi 

numero 

de 

variables 

continuas , 

% 

P2 

numero 

de 

variables 

binarias , 

% 

P3 

numero 

de 

variables 

categoricas 

(no  binarias) , 

% 

k 

vector 

que  contiene 

el  numero  de 

categorias  de  cada 

variable  categorica  (no  binaria)  segun  el  orden 
de  entrada. 


function  S = gower (X, pi , p2 , p3 , k) 

[n,  p]  = size  (X)  ; 

% matriz  de  variables  cuantitativas 
XI  = X ( : , 1 : pi ) ; 

% matriz  de  variables  binarias 
X2  = X(  : , pl  + 1 :pl+p2 ) ; 
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% matriz  de  variables  categoricas 
X3  = X ( : ,pl+p2+l :p) ; 

% calculos  para  las  variables  continuas 
rango  = max (XI ) -min (XI ) ; 
for  i = 1 : n 

c (i, i)  = pi; 
for  j = l:i-l 

c(i,j)  = pl-sum (abs (XI (i , : ) -XI ( j , : ) ) . /rango) ; 
c ( j , i ) = c ( i , j ) ; 

end 

end 

% calculo  de  las  matrices  a y d para  las  variables  binarias 
J = ones (size (X2) ) ; 
a = X2*X2 ' ; 
d = ( J-X2 ) * ( J-X2 ) ' ; 

% calculos  para  las  variables  categoricas : cada  variable 
% categorica  de  k estados  se  transforma  en  k variables 
% binarias  que  se  yuxtaponen  en  una  sola  matriz  Y1 . 

Y1  = zeros (n, k (1) ) ; 
for  i = l:n 

Yl(i,X3 (i , 1) ) = 1; 

end 

for  j = 2 : p3 

Y = zeros (n, k ( j ) ) ; 
for  i = 1 : n 

Y(i,X3 (i,  j)  ) = 1; 

end 

Y1  = [Y1  Y] ; 

end 

alpha  = Y1*Y1 ' ; 

% calculo  del  coeficiente  de  similaridad  de  Gower 
S = (c+a+alpha) . / (p*ones (n) -d) ; 

Si  llamamos  X a la  matriz  que  contiene  los  datos  de  la  Tabla  5.2,  las  instrucciones  para  calcular 
las  distancias  de  Gower  son: 

pi  = 4 ; p2  = 1 ; p3  = 2 ; 
k = [9  4]  ; 

S_gower  = gower (X, pi , p2 , p3 , k) ; 

D2_gower  = ones (size (S_gower) ) -S_gower; 

Observando  la  matriz  de  cuadrados  de  distancias,  ^que  par  de  jugadores  son  mas  proximos? 
(',que  par  son  mas  distantes?  Estudiaremos  con  mas  detalle  las  proximidades  entre  estos  juga- 
dores en  el  Problema  5.10 
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PROBLEMA  5.6 


Sea  D una  matriz  de  distancias  sobre  n individuos  de  un  conjunto  £.  Se  dice  que 
(£,D)  tie ne  (o  admite)  una  representacion  euclfdea  exacta  en  dimension  p > 0 si 
existe  un  conjunto  de  n puntos  xi , . . . , x„  del  espacio  eucUdeo  W,  que  verifica  que 
las  distancias  euclideas  entre  los  x,  (i  = 1, . . . , n)  son  iguales  a los  elementos  corres- 
pondientes  de  la  matriz  D = (<%)i<jj<n>  es  deed ; 

f>i,j  = (x*  - Xj)'(xj  -Xj),  1 <i,j  <n. 

Demuestrese  que  (£,D)  tiene  una  representacion  euclfdea  de  dimension  p < n — 1 
si,  y solo  si,  la  matriz 

B = --HD(2)H  (5.4) 

2 v 2 

es  semidefinida  positiva  con  p = /g(B),  donde  D denota  la  matriz  de  cuadrados  de 
distancias  y H es  la  matriz  de  centrado  . 


( SOLUCION  ) 

=>)  Supongamos  que  D es  euclfdea,  y sea 


una  configuracion  euclfdea  de  D en  Rp.  Los  elementos  de  D (al  cuadrado)  son 

5ij  = (xj  — xj)  (xj  — Xj)  = —2  a,ij. 

Sea  x el  centroide  de  xi , . . . , xn,  es  decir. 


1 " i 

x — ) Xj  — X ln. 

rt  -4 — ^ n 


n * — ' n 

l—l 


Utilizaremos  la  siguiente  notacion: 


i=  i 

Promediando  (5.5)  respecto  de  j 


^ n i n ^ n n 

• — - = - X! aif'  = ^2  X!  X! 


CLij 


i=  1 


i= 1 i=l 


-2  a,.  = X-Xj  - 2x'x  H — ^ x'x;, 


j=i 


promediando  (5.5)  respecto  de  i 


— 2 a.  j = — V x'xj  — 2x'j 

n ' 


z=l 


(5.5) 


(5.6) 


(5.7) 


(5.8) 
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y promediando  la  expresion  (5.8)  respecto  de  j 


n i n 

-2  a..  = — xixi  — 2x'x  -| ^ x'x, . 


i= 1 


i=i 


(5.9) 


Construimos  la  matriz 


B = -4hD(2)H  = HAH, 


donde  A = ) i <i,j<n-  Desarrollando  esta  expresion,  se  obtiene 

R — A A 1 1 ' _ i.1  1 ' A -( 3-1  1 ' A 1 1 ' 

n n nz 

cuyos  elementos  son: 

bij  — &i.j  U/.  a.y  a... 

Substituyendo  las  expresiones  (5.7),  (5.8)  y (5.9)  en  (5.10)  y operando,  se  obtiene 
bij  = x'x_j  — x'x  — x'xj  + x'x  = (x,;  — x)'(xj  — x). 


(5.10) 


Matricialmente,  utilizando  la  expresion  (5.6),  tenemos  que: 

B = (X  — l„x')(X  - l„x')'  = (HX)(HX)', 


de  donde  se  deduce  que  B > 0 y rg ( B ) = p,  puesto  que  rg(HX)  = p. 

<t=)  Supongamos  que  B > 0 con  p = rg  ( B ) . Entonces,  segun  el  teorema  de  descomposicion 
espectral, 

B = UAU', 

donde  U es  una  matriz  ortogonal  y A = diag( Ai, . . . , Ap). 

Definiendo 

X = UA1/2, 


se  tiene  que 


B = XX', 


cuyos  elementos  son  bij  = x'xj. 

Veamos  que  los  puntos  representados  por  xi, . . . , x„  son  una  configuracion  euclfdea  de  D. 
Utilizando  las  expresiones  (5.5)  y (5.10), 


(Xj  - Xj)'(x,;  - Xj)  = X-Xj  - 2 x'x,  + x'-Xj  = bu  - 2 bij  + bjj 
— dn  2 cij  j -{-  djj  — 2 ciij  — b :j  j . 

puesto  que  an  = —8%/ 2 = 0,  djj  = —$jj/2  = 0. 

El  rango  de  B es  siempre  menor  o igual  que  n — 1,  puesto  que  1„  es  un  autovector  de  B cuyo 
autovalor  es  0,  es  decir,  Bln  = HAH1„  = 0. 
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PROBLEMA  5.7 


Demuestrese  que,  si  la  matriz  B definida  en  (5.4)  tiene  autovalores  negativos,  la  trans- 
formation 


?2  / <%■  + c,  if-  j, 

ij  I 0,  i = j, 


(5.11) 


donde  c > 2|A|,  siendo  A el  autovalor  negativo  de  modulo  mdximo,  da  lugar  a una 
nueva  matriz  de  distancias  D que  admite  una  representation  euclidea.  Esta  trans- 
formation se  denomina  q-aditiva  y es  la  que  menos  distorsiona  la  distancia  original. 
Los  programas  de  escalado  multidimensional  (en  ingles,  MDS  o multidimensional 
scaling)  utilizan  otras  transformations  no  lineales  mas  complicadas  ( veanse  Mardia, 
Kent  y Bibby  1 979,  Pena  2002,  Cuadras  2004 ). 


SOLUCION  ) 

Sean  Ai  > . . . > Afc  > 0 > A^  > . . . > X'm,  con  m + k = n — 1 los  autovalores  de  la 
matriz  B.  Sea  D^2)  = (< 5?-)  la  matriz  de  cuadrados  de  distancias  y IL2)  = (A2  ) la  matriz  de 
cuadrados  de  distancias  transformada  segun  (5.11),  que  matricialmente  se  escribe 

£)(2)  = + c (lnljj  — I). 


La  matriz  B correspondiente  es 

B = -^HD(2)H  = -^HD(2,H  |h(1„i;  - I)H  = B + ^H, 

puesto  que  Hln  = 0 y H2  = H.  Si  v es  un  autovector  de  la  matriz  B de  autovalor  no  nulo  A, 
es  decir,  B v = A v,  entonces: 

Bv  = (B  + ^H)  v = B v + v 

= Av+I(I-^1-1”)v  = Av+iv  = (A+I) v- 

puesto  que  l'n  v = 0,  al  ser  ln  autovector  de  B de  autovalor  0.  Por  tanto,  si  X'm  es  el  autovalor 
de  B negativo  de  modulo  maximo,  entonces 

A'm  + - > 0 c > -2X'm  = 2\X!m\. 

En  particular,  si  c = 2|A^|  la  transformacion  es  euclidea  en  dimension  m + k—  1,  puesto  que 
existen  m + k 1 autovalores  positivos  y un  autovalor  nulo. 

Es  interesante  disponer  de  una  funcion  Matlab  que  realice  esta  transformacion. 

% non2euclid 

% Dada  una  matriz  D (nxn)  de  cuadrados  de  distancias 
% no  euclidea,  la  funcion  Dl=non2euclid (D)  devuelve 
% una  matriz  D1  de  cuadrados  de  distancias  euclidea. 
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function  D1  = non2euclid (D) 

[n,  n]  = size  (D)  ; 

H = eye (n) -ones (n) /n; 

[T, Lambda]  = eig ( -H*D*H/2 ) ; 
m = min (diag (Lambda) ) ; 

D1  = D-2*m*ones (n) +2*m*eye (n) ; 


PROBLEMA  5.8 


Sea  £ un  conjunto  de  n individuos  cuya  matriz  euclidea  de  distancias  es  D y cuya  re- 
presentation en  coordenadas  principales  es  X.  Se  desean  obtener  las  coordenadas  de 
un  nuevo  individuo,  al  que  llamaremos  individuo  n+ 1,  del  cual  se  conocen  los  cuadra- 
dos  de  sus  distancias  a los  n individuos  del  conjunto  £.  Si  d = (<5^+1 1} . . . , <52+1  n)' 
es  el  vector  columna  que  contiene  las  distancias  al  cuadrado  del  individuo  n + 1 a los 
restantes,  demuestrese  que  la  representation  en  coordenadas  principales  del  individuo 
n + 1 viene  dada  por 

xn+i  = ^A-1  X'  (b  - d),  (5.12) 

donde  b = diag( B)  = (bn, . . . , bnn)',  B = XX'  = UAU'  y U es  una  matriz 
ortogonal.  La  ecuacion  (5.12)  se  conoce  como  formula  de  interpolacion  de  Gower 
(Gower  1968). 


( SOLUC ION  ) 

La  distancia  (al  cuadrado)  del  individuo  n + 1 a un  individuo  i de  £ es: 

^ra+l,i  = (X"+l  ~ xi)  (xn+l  — xi)  = x„+ixra+l  — 2xn+1X,;  + X!;X,;, 

para  1 < i < n.  Matricialmente, 


d = ||xn+i||2  1„  - 2Xxn+i  + b. 
Operando  y multiplicando  por  la  izquierda  por  X',  tenemos  que: 

2X'Xx„+1  = X'(b  - d)  + ||xn+1||2X'ln. 
y puesto  que  X'  ln  = 0 y X = U A1/2, 

xn+1  = i(X'X)-1X'(b  - d)  = iA_1X'(b  - d). 
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PROBLEMA  5.9 


Obtengase  una  representation  en  coordenadas  principales  de  las  poblaciones  del  Pro- 
blema  5.3,  utilizando  la  matriz  de  distancias  de  Bhattacharyya.  £ Cud l es  la  dimension 
de  la  representation  euclidea?  Determinese  cudl  es  el  porcentaje  de  variabilidad  ex- 
plicado  por  las  dos  primeras  coordenadas  principales. 


SOLUCION  ) 

Construimos  una  funcion  Matlab  para  obtener  las  coordenadas  principales  a partir  de  una  ma- 
triz de  cuadrados  de  distancias. 

% COORP 


% La  funcion  [X, vaps , percent , acum]  = coorp  (D)  calcula  las 
% coordenadas  principales  a partir  de  una  matriz  de  D de  cuadrados 
% distancias, 


% Entradas : D = matriz  de  cuadrados  de  distancias. 


% Devuelve : 

% X = matriz  de  coordenadas  principales, 

% vaps  = vector  fila  que  contiene  los  autovalores, 

% percent  = vector  fila  que  contiene  los  porcentajes  de 
% variabilidad  explicados  por  cada  coordenada . 

% acum  = vector  fila  que  contiene  los  porcentajes  de 
% variabilidad  acumulados . 


function  [X, vaps , percent , acum]  = coorp (D) 
[n, n]  = size (D) ; 

% comprobamos  que  D es  euclidea  (ie,  B>=0) 
H = eye (n) -ones (n) /n; 

B = -H*D*H/2; 

L = eig (B) ; 
m = min (L) ; 
epsilon  = 1 . e-6 ; 
if  abs (m)  < epsilon 

% hacemos  la  transf ormacion  non2euclid 
D1  = non2euclid (D) ; 

B = -H*Dl*H/2; 

end 


% calculo  de  las  coordenadas  principales  (solo  consideramos 
% las  no  nulas) 

[T, Lambda, V]  = svd(B); 
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vaps  = diag (Lambda) ' ; 

j = 1; 

while  vaps ( j ) >epsilon 
T1  = T ( : , 1 : j ) ; 

X = Tl*sqrt (Lambda (1 : j , 1 : j ))  ; 
j = min ( j +1 , n)  ; 

end 

percent  = vaps/sum (vaps ) *100 ; 
acum  = zeros (l,n); 
for  i = l:n 

acum(i)  = sum (percent ( 1 : i ))  ; 

end 


% vector  de  etiquetas  para  los  individuos 
for  i = l:n 

lab(i,:)  = sprintf ( ' %3g' , i)  ; 
end 


% representation  de  los  datos  en  dimension  2 
plot(X( : ,1) , X ( : ,2) , ' .b' , ' MarkerSize' ,15) 
grid 

xlabel ( ' Primera  coordenada  principal FontSize 10 ) 
ylabel ( ' Segunda  coordenada  principal FontSize 10 ) 
title ([' Porcentaj e de  variabilidad  explicada  ... 

num2str (acum (2 )),'%'], ' FontSize ' , 12 ) 

for  i = l:n, 

text (X ( i , 1 ) , X ( i , 2 ) , lab ( i , : ) ) ; 

end 

En  el  Problema  5.3  habi'amos  calculado  la  matriz  DB2  de  cuadrados  de  distancias  de  Bhat- 
tacharyya  entre  las  poblaciones.  Para  obtener  la  representation  en  coordenadas  principales 
haremos: 

[X, vaps , percent , acum]  = coorp(DB2); 

La  dimension  de  la  representation  euclfdea  es  el  niimero  de  autovalores  no  nulos,  es  decir,  la 
dimension  del  vector  fila  vaps.  El  vector  fila  percent  contiene  los  porcentajes  de  varia- 
bilidad explicados  por  cada  coordenada  principal  y el  vector  acum  contiene  los  porcentajes 
acumulados.  En  la  Figura  5.2  se  encuentra  la  representation  de  las  poblaciones  {francesa, 
checa,  germdnica,  vasca,  china,  ainu,  esquimal,  negra  USA,  espahola,  egipcia}  en  funcion  de 
las  dos  primeras  coordenadas  principales.  A grandes  rasgos  pueden  distinguirse  tres  grupos, 
que  estudiaremos  con  mas  detalle  en  el  Problema  6.3. 
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Porcentaje  de  variabilidad  explicada  56.5866% 
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Figura  5.2. 

Representation  en  coordenadas  principals  (Problema  5.9). 


PROBLEMA  5.10 


Utilizando  la  matriz  de  distancias  del  Problema  5.5  obtengase  una  representacion 
de  los  jugadores  en  coordenadas  principales.  Determmese  cudl  es  el  porcentaje  de 
variabilidad  explicado  por  las  dos  primeras  coordenadas  principales  . £ Que  se  puede 
decir  de  las  semejanzas  entre  jugadores? 


SOLUCION  ) 

En  el  Problema  5.5  habiamos  obtenido  la  matriz  de  cuadrados  de  distancias  D2_gower.  Uti- 
lizando la  funcion  coorp  construida  en  el  Problema  5.9  realizaremos  la  representacion  en 
coordenadas  principales: 

[Y, vaps , percent , acum]  = coorp (D2_gower) ; 

La  Figura  5.3  contiene  la  representacion  de  los  jugadores  en  funcion  de  las  dos  primeras  coor- 
denadas principales.  Quiza  al  lector  le  resulte  entretenido  buscar  parecidos  entre  distintos 
jugadores. 
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Porcentaje  de  variabilidad  explicada  33.5165% 
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Figura  5.3. 

Representation  en  coordenadas  principales  (Problema  5.10). 


: *24 

: - 

•41 

•15  ; 

' *32 

•21 

' ;«ij45  ’ 

CO 

• 

CO 

•38»33 
- *39  - 

•43 

•49 

•37 

• 1 

•10  .19 

• 3 

•30 

.46  *40 

*rs 

*36  122 

• «i^^  - 

• 7 : 

% 

•20: 

•25 

•4514 

•35 

•28 

PROBLEMA5.il 


Para  los  datos  del  Problema  5.4 

(a)  obtengase  una  representacion  en  coordenadas  principales  utilizando  la  matriz 
de  distancias  calculada  a partir  del  coeficiente  de  similaridad  de  Sokal  y Mi- 
chener. 

(b)  Sin  volver  a recalcular  las  coordenadas  principales,  anddase  el  elefante  al  con- 
junto  de  animates  y obtenganse  sus  coordenadas  (vease  el  Problema  5.8). 


( SOLUC ION  ) 


(a)  Habiamos  llamado  X a la  matriz  de  datos  del  Problema  5.4.  Llamaremos  Y a la  matriz 
que  contiene  las  coordenadas  principales  del  conjunto  de  animales. 

[Y, vaps , percent , acum]  = coorp (D2_Sokal ) ; 

La  Figura  5.4  contiene  la  reprentacion  de  los  animales  en  funcion  de  las  dos  primeras  coorde- 
nadas principales.  Podemos  observar  que  el  primer  eje  ordena  a los  animales  dependiendo  de 
si  son  carnfvoros  o herbfvoros,  mientras  que  el  segundo  eje  ordena  a los  animales  en  funcion 
de  que  sean  salvajes  o no.  En  el  Problema  6.4  estudiaremos  con  mas  detalle  las  agrupaciones 
entre  estos  individuos. 
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Porcentaje  de  variabilidad  explicada  80.8127% 

1 . leon 

2.  girafa 

3.  vaca 

4.  oveja 

5.  gato 
domestico 

6.  hombre 


-0.8  -0.6  -0.4  -0.2  0 0.2  0.4  0.6 

Primera  coordenada  principal 

Figura  5.4. 

Representation  en  coordenadas  principals  (Problema  5.11). 


(b)  Las  puntuaciones  del  elefante  segun  las  variables  del  Problema  5.4  son  (1  1 0 0 0 1). 
Recordemos  que  habiamos  llamado  X a las  puntuaciones  de  los  restantes  animales.  Calculamos 
primero  las  similaridades,  segun  el  coeficiente  de  Sokal  y Michener,  entre  este  nuevo  individuo 
y los  demas  y tambien  los  cuadrados  de  las  distancias  asociadas: 

[n, p]  = size  (X)  ; 
x = [1  1 0 0 0 1]; 

a = X*x' ; d= (ones (n,p) -X) * (ones ( 1 , p) -x) ' ; 
s = (a+d) /p; 
d = 2* (ones (n, 1) -s) ; 

y obtenemos 

s'  = 0.8333  0.8333  0.6667  0.6667  0.6667  0.3333 

d'  = 0.3333  0.3333  0.6667  0.6667  0.6667  1.3333 

Implementando  la  formula  (5.12)  como  sigue 

B = Y*Y' ; 
b = diag (B) ; 

[n, p]  = size  (Y)  ; 

Lambda  = diag (vaps ( 1 : p) ) ; 
y = l/2*inv (Lambda) *Y' * (b-d) ; 

obtenemos  las  coordenadas  del  nuevo  individuo: 

y'  = 0.1491  0.3582  0.0000  -0.1861 
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Para  anadir  este  nuevo  punto  a la  representacion  grafica,  hacemos: 
hold  on 

plot (y ( 1 ) ,y(2) , ' *r' , ' Markers ize'  ,15)  ; 

La  Figura  5.5  contiene  esta  nueva  representacion  de  los  animales.  Observemos  que  el  elefante 
esta  “donde  corresponde”,  puesto  que  es  un  herbfvoro  salvaje. 


Porcentaje  de  variabilidad  explicada  80.8127% 


elefante 

1 * 


-0.4  -0.2  0 0.2 

Primera  coordenada  principal 


1 . leon 

2.  girafa 

3.  vaca 

4.  oveja 

5.  gato 
domestico 

6.  hombre 


Figura  5.5. 

Formula  de  interpolation  de  Gower  (Problema  5.11). 
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CAPITULO 


Analisis  de  conglomerados 


Sea  £ un  conjunto  de  n objetos  o individuos  sobre  los  que  se  ha  calculado  alguna 
medida  de  distancia.  Sea  D = (<%)i<i,j<n  la  matriz  de  distancias  entre  estos  n 
individuos. 

El  objetivo  del  analisis  de  conglomerados  (en  ingles,  cluster  analysis ) es  la  clasi- 
ficacion  (no  supervisada)  de  los  elementos  de  £,  es  decir,  su  agrupacion  en  clases 
disjuntas,  que  se  denominan  conglomerados  (o  clusters).  Si  estas  clases  se  agrupan 
sucesivamente  en  clases  de  un  nivel  superior,  el  resultado  es  una  estructura  jerarquica 
de  conglomerados,  que  puede  representarse  graficamente  mediante  un  arbol,  llamado 
dendrograma. 

Se  dice  que  una  matriz  de  distancias  D es  ultrametrica  si  todos  los  elementos  de  £ 
verifican  la  desigualdad  ultrametrica  (vease  el  Capftulo  5).  Puede  demostrarse  que  a 
cada  dendrograma  le  corresponde  una  matriz  de  distancias  ultrametrica  y viceversa. 
Como  ocurrfa  en  el  caso  euclfdeo,  una  matriz  de  distancias  obtenida  de  unos  datos  en 
general  no  es  ultrametrica.  Esto  da  lugar  al  problema  de  aproximar  la  matriz  de  distan- 
cias D con  una  matriz  ultrametrica  U segun  algun  criterio  de  proximidad  adecuado. 
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PROBLEMA  6.1 


Sea  6 unafuncion  de  distancia  sobre  los  elementos  de  un  conjunto  8 que  verifica  la 
desigualdad  ultrametrica. 

(a)  Sean  i,  j,k  € £ tales  que  5^  = a,  So-  = b,  5jk  = c,  con  a <b  < c.  Demuestrese 
que  b = c. 

(b)  Usando  el  apartado  (a)  demuestrese  que  5 cumple  la  desigualdad  triangular. 


SOLUCION  ) 


(a)  Puesto  que  <5  verifica  la  desigualdad  ultrametrica  y,  ademas  a < b < c : 

b = Sik  < max{(5y,  Sjk}  = max{a,  c}  = c 
c = Sjk  < vuax.{Sji,  Sik}  = nrax{a,  b}  = b 

Esto  significa  que  con  una  distancia  ultrametrica  todo  triangulo  es  isosceles. 

(b)  Debemos  comprobar  que  se  cumple  la  desigualdad  Sij  < Sik  + Skj, para  todo  i,j,k, 
teniendo  en  cuenta  que  b = c.  Consideremos  los  tres  posibles  casos: 


Sij  ^ Sik  L Skj 

Sij  = a > -o-  a < b + c Es  cierto,  puesto  que  a < b < c. 

Sik  + Skj  = b + c J 


Sik  — Sij  Sjk 

Sik  = b 

Sij  Sjk  = ct  c — a b 

Sjk  ^ Sji  + Sik 

Sjk  — c 

Sji  Sik  — CL  b = CL  C 


<=>  b < a + b Es  cierto,  puesto  que  a > 0. 


<^>  c < a + c Es  cierto,  puesto  que  a > 0. 


PROBLEMA  6.2 


La  Tabla  6.1  contiene  las  distancias  por  carretera  (en  km)  entre  5 ciudades  espaho- 
las.  Realicese  una  clasificacion  jerdrquica  mediante  el  metodo  del  mmimo  ( o single 
linkage ).  Obtengase  la  matriz  de  distancias  ultrametrica. 


SOLUCION  ) 

Para  abreviar,  denotaremos  las  ciudades  por  sus  iniciales  y trabajaremos  solamente  con  el  trian- 
gulo superior  de  la  matriz  de  distancias.  El  paso  cero  del  algoritmo  de  clasificacion  consiste 
en  expresar  la  union  disjunta  formada  por  cada  uno  de  los  elementos  del  conjunto,  es  decir, 
Co  = {B}  + {M}  + {SS}  + {S}  + {V}. 
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Tabla  6.1. 

Distancias  por  carretera  (en  km)  entre  ciudades.  (Problema  6.2) 


Barcelona 

Madrid 

San  Sebastian 

Sevilla 

Valencia 

Barcelona 

0 

639 

606 

1181 

364 

Madrid 

639 

0 

474 

542 

355 

San  Sebastian 

606 

474 

0 

908 

597 

Sevilla 

1181 

542 

908 

0 

679 

Valencia 

364 

350 

597 

679 

0 

En  el  primer  paso  del  algoritmo  se  juntan  los  individuos  mas  cercanos,  que  en  este  caso  son 
las  ciudades  Madrid  y Valencia,  puesto  que  5m, v — 355.  Estas  dos  ciudades  forman  el  primer 
conglomerado.  De  manera  que  en  el  paso  1 la  clasificacion  sera: 

Cx  = {B}  + {M,  V}  + {55}  + {5}. 


Ahora  mediante  el  metodo  del  mi'nimo  hay  que  recalcular  las  distancias  del  conglomerado 
{M.V}  a los  demas  individuos: 


$(mv),b  = min  {Sm,b,5v,b}  = min{639,364}  = 364, 
S(mv),SS  = min{d'M,ss,  <V,ss}  = min{474,  597}  = 474, 
5(mv),s  = min{<5M,s,<Jv,s}  = min{542,679}  = 542, 

de  manera  que  la  matriz  de  distancias  ha  quedado: 


Paso  0 

B M SS  S V 

B 

0 639  606  1181  364 

M 

0 474  542  355 

55 

0 908  597 

5 

0 679 

V 

0 

Paso  1 

B (Af,  V)  55  5 

B 

0 364  606  1181 

(M,  V) 

0 474  542 

55 

0 908 

5 

0 

Se  prosigue  analogamente  hasta  que  se  obtenga  un  conglomerado  que  contenga  a todos  los 
individuos.  El  siguiente  conglomerado  que  se  forma  es  {B.M.V},  puesto  que  Barcelona  es  la 
ciudad  mas  cercana  al  conglomerado  {M.V}  al  ser  6b,mv  = 364.  En  este  segundo  paso,  la 
clasificacion  sera  C2  = { B , M,  V } + {55}  + {5}.  Como  anteriormente,  hay  que  recalcular 
las  distancias  del  conglomerado  {B.M.V}  al  resto  de  individuos: 


S(bmv),SS  = min{(5Bjss,  6(mv),ss}  = min{606,474}  — 474, 
S(BMV),s  = min{<5Bis,  6(Mv),s}  = min{1181, 542}  = 542, 


y la  matriz  de  distancias  es: 


Paso  2 

(B,  MV) 

55 

5 

(B,  MV) 

0 

474 

542 

55 

0 

908 

5 

0 

Paso  3 

{BMV,  55)  5 

(BMV,  55) 

0 542 

5 

0 
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En  el  tercerpaso  se  forma  el  conglomerado  {B,M,V,SS},  puesto  que  San  Sebastian  es  la  ciudad 
mas  proxima  al  conglomerado  {B,M,V}  con  Sss,bmv  = 474.  Ahora  la  clasificacion  es 

C3  = {B,M,V,SS}  + {S} 

y la  distancia  del  conglomerado  {B,M,V,SS}  al  individuo  que  falta  es: 

d(BMVSS),S  = ^ss,s}  = min{542,908}  = 542, 

Finalmente,  en  el  paso  4 se  forma  el  ultimo  conglomerado  { B,M,  V.SS.S } con  una  distancia  de 
Sbmvss,S  = 542,  que  es  lo  que  dista  Sevilla  del  conglomerado  {B.M.V.SS}.  La  clasificacion 
en  este  ultimo  paso  es  C,\  = { B,  M,  V,  SS,  S'}.  La  Tabla  6.2  contiene  un  resumen  de  los 
conglomerados  que  se  han  ido  formando  en  las  distintas  etapas  del  algoritmo  de  clasificacion. 

Tabla  6.2. 

Resumen  del  algoritmo  de  clasificacion  (Problema  6.2). 


paso 

distancias 

clasificacion  / conglomerados 

0 

- 

Co  = {B}  + {M}  + {55}  + {5}  + {17} 

1 

SM,v  = 355 

C\  = {5}  + {M,  ^}  + {55}  + {5} 

2 

$b,mv  = 364 

C2  = {B,  M,V}  + {55}  + {5} 

3 

$BMV,SS  = 474 

C3  = {B,  M,  V,  55}  + {5} 

4 

$BMVSS,S  = 542 

C4  = {B,  M,  V,  55, 5} 

A partir  de  la  Tabla  6.2  puede  reconstruirse  la  matriz  de  distancias  ultrametrica,  que  se  muestra 
en  la  Tabla  6.3.  La  representation  de  los  individuos  a partir  de  las  distancias  ultrametricas  suele 
realizarse  mediante  un  dendrograma  o arbol  jerarquico.  Si  la  matriz  de  distancias  originales  no 
cumple  la  propiedad  ultrametrica,  los  distintos  metodos  de  clasificacion  daran  lugar  a distintos 
dendrogramas. 


Tabla  6.3. 

Matriz  de  distancias  ultrametrica  entre  ciudades.  (Problema  6.2). 


Barcelona 

Madrid 

San  Sebastian 

Sevilla 

Valencia 

Barcelona 

0 

364 

474 

542 

364 

Madrid 

0 

474 

542 

355 

San  Sebastian 

0 

542 

474 

Sevilla 

0 

542 

Valencia 

0 

La  Figura  6. 1 contiene  una  representacion,  en  forma  de  arbol  jerarquico  o dendrograma,  de  la 
matriz  de  distancias  ultrametrica  calculada  mediante  el  metodo  del  minimo. 
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ciudades 


Figura  6.1. 

Dendrograma  con  los  datos  del  Problema  6.2 


PROBLEMA  6.3 


Considerense  los  datos  de  la  Tabla  5.1.  Sea  la  matriz  de  distancias  de  Bhatta- 
charyya  obtenida  en  el  Problema  5.3. 

(a)  Verifiquese  que  D no  es  ultrametrica. 

(b)  Realicense  clasificaciones  jerdrquicas  a partir  de  la  matriz  D mediante  los  me- 
todos  del  mmimo  (o  single  linkage),  del  mdximo  ( o complete  linkage)  y UPGMA 
( o Unweighted  Pair  Group  Method  using  Arithmetic  averages ).  i Que  diferen- 
cias  se  observan  ? 

(c)  Calculese  la  correlacion  cofenetica  en  cada  caso. 

(d)  Compdrense  los  dendrogramas  con  la  representation  en  coordenadas  principa- 
les  que  muestra  la  Figura  5.2. 


( SOLUC  ION  ) 


(a)  En  el  Problema  5.3  habfamos  calculado  la  matriz  DB2  de  cuadrados  de  distancias  de 
Bhattacharyya  con  los  datos  de  la  Tabla  5.1.  Esta  tabla  contenfa  las  proporciones  genicas 
(observadas)  entre  10  poblaciones.  De  manera  que  el  conjunto  de  individuos  sobre  el  que  que- 
remos  realizar  clasificaciones  jerarquicas  es  £ ={francesa,  checa,  germanica,  vasca,  china, 
ainu,  esquimal,  negra  USA,  espa  nola,  egipcia}. 
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En  primer  lugar,  calculamos  la  matriz  de  distancias  D=sqrt  (DB2 ) , para  ver  si  los  elementos 
de  £ cumplen  o no  la  propiedad  ultrametrica: 


D=  [ 0 

0.3959 

0.2086 

0 . 3530 

0 . 5351 

0.3959 

0 

0.3400 

0.5162 

0.4733 

0.2086 

0.3400 

0 

0.4074 

0 . 5211 

0 .3530 

0 . 5162 

0.4074 

0 

0 . 5675 

0 . 5351 

0.4733 

0 . 5211 

0 . 5675 

0 

0.6298 

0 . 5104 

0 . 6030 

0 . 6879 

0.4397 

0 . 5121 

0.4976 

0 . 5107 

0 . 5106 

0.4354 

0.4301 

0.4575 

0.4206 

0 . 5055 

0 . 5206 

0.2828 

0.3693 

0.2789 

0 .3895 

0 . 5151 

0.4695 

0.2995 

0.4227 

0 . 5796 

0.4991 

0 . 6298 

0 . 5121 

0.4301 

0.2828 

0.4695 

0 . 5104 

0.4976 

0.4575 

0 . 3693 

0.2995 

0 . 6030 

0 . 5107 

0.4206 

0.2789 

0.4227 

0 . 6879 

0 . 5106 

0 . 5055 

0 .3895 

0 . 5796 

0.4397 

0.4354 

0 . 5206 

0 . 5151 

0.4991 

0 

0 . 5569 

0 . 6084 

0 . 6035 

0.4921 

0 . 5569 

0 

0 . 6007 

0.4499 

0 . 5680 

0 . 6084 

0 . 6007 

0 

0.4938 

0.4469 

0 . 6035 

0.4499 

0.4938 

0 

0.4702 

0.4921 

0 . 5680 

0.4469 

0.4702 

0 ] ; 

Puede  comprobarse  que  la  matriz  D no  es  ultrametrica  puesto  que,  por  ejemplo, 

($1,6  = 0.6298  > maxjiJi^,  <53j6}  = max{0. 2086,  0.6030}. 

(b)  Para  poder  utilizar  las  funciones  incorporadas  en  Matlab  que  permiten  realizar  el  analisis 
de  conglomerados,  necesitamos  expresar  la  matriz  de  distancias  como  un  vector  fila  que  con- 
tenga  solamente  la  parte  triangular  superior  de  la  matriz,  pero  sin  la  diagonal  principal.  Para 
ello,  podemos  utilizar  la  siguiente  funcion: 

% la  funcion  Y=extractdist (D)  extrae  las  distancias  de  los 
% elementos  de  la  parte  triangular  superior  (sin  contar  la 
% diagonal)  de  la  matriz  D (nxn)  de  distancias.  Los  elementos 
% se  extraen  ordenadamente , columna  a columna. 

% Entradas : D es  una  matriz  cuadrada  (nxn) . 

% Salidas:  Y es  un  vector  fila  de  dimension  n(n-l)/2. 

function  Y = extractdist (D) 

[n,  n]  = size  (D)  ; 

Y = [D  ( 1 , 2 : n)  ] ; 
for  i = 2 : n- 1 

Y = [Y  D (i,  i + 1 : n)  ] ; 

end 

Podeis  comprobar  que  mediante  la  instruction  Y=squaref  orm  (D)  se  llega  al  mismo  resul- 
tado. 

Utilizando  las  funciones  internas  de  Matlab  linkage  y dendrogram  (solo  disponibles  con 
la  Toolbox  Statistics)  se  obtiene  una  representation  en  forma  de  arbol  jerarquico  o dendro- 
grama.  La  funcion  linkage  da  lugar  a una  matriz  de  3 columnas,  que  contiene  el  rndice 
de  la  jerarqufa  indexada  en  su  tercera  columna  y,  por  tanto,  permite  recuperar  la  matriz  de 
distancias  ultrametrica,  si  esta  fuera  de  interes. 

Z_min  = linkage (Y, ' single ') ; 

Z_max  = linkage (Y, ' complete' ) ; 

Z_UPGMA  = linkage (Y, ' average' ) ; 
dendrogram (Z_min) ; 
dendrogram (Z_max) ; 
dendrogram (Z_UPGMA) ; 
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La  Figura  6.2  contiene  los  dendrogramas  obtenidos  mediante  los  tres  metodos  anteriores.  Ob- 
servad  que  las  clasificaciones  que  se  obtienen  mediante  los  metodos  del  maximo  y UPGMA 
son  muy  parecidas.  Por  otro  lado,  el  metodo  del  mi'nimo  tiende  a contraer  el  espacio  (observad 
los  valores  del  mdice  de  la  jerarqufa,  que  se  encuentran  representados  en  el  eje  vertical  del 
grafico),  mientras  que  el  metodo  de  maximo  tiende  a dilatar  el  espacio. 


(a)  (b) 


(c) 

Figura  6.2. 

Dendrogramas  con  los  datos  del  Problema  6.3:  metodos  (a)  del  mi'nimo,  (b)  del  maximo  y 
(c)  UPGMA. 


(c)  La  correlacion  cofenetica  es  el  coeficiente  de  correlacion  lineal  de  Pearson  entre  los  ele- 
mentos  de  la  matriz  de  distancias  original  y los  elementos  de  la  matriz  de  distancias  ultra- 
metrica.  Se  utiliza  como  medida  de  proximidad  entre  las  dos  matrices  de  distancias.  Este 
coeficiente  vale  uno  en  caso  de  proporcionalidad  (igualdad)  de  ambas  matrices,  lo  que  equi- 
vale  a decir  que  la  matriz  de  distancias  original  ya  cumple  la  propiedad  ultrametrica. 

Para  calcular  la  correlacion  cofenetica  podemos  utilizar  la  funcion  interna  de  Matlab  cophene  t 

c_min  = cophenet (Z_min, Y) 
c_max  = cophenet (Z_max, Y) 
c_UPGMA  = cophenet (Z_UPGMA, Y) 

y obtenemos  c_min=0 . 7910,  c_max=0 .8132  y c_UPGMA=0 . 8413,  indicando  que  el 
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metodo  UPGMA  es  el  que  menos  distorsiona  (de  los  tres  que  hemos  visto)  la  matriz  de  distan- 
cias  original.  Los  metodos  del  tipo  UPGMA  se  utilizan  mucho  en  biologfa  porque  maximizan 
la  correlacion  cofenetica. 

(d)  Las  agrupaciones  de  individuos  que  se  observan  en  los  dendrogramas  deberian  refle- 
jarse  tambien  en  la  representacion  en  coordenadas  principales  de  estos  mismos  individuos 
(Figura  5.2).  La  Figura  6.3  intenta  reflejar  estas  proximidades.  El  grupo  { 1,3, 9,4}  lo  for- 
manlas  poblaciones  europeas  { francesa , germdnica,  espa  nola,  vasca },  el  grupo  {2,8,10}  esta 
formado  por  las  poblaciones  {checa,  negra  USA,  egipcia } y,  finalmente,  el  grupo  {5,6,7}  lo 
forman  las  poblaciones  {china,  ainu,  esquimal).  Observad  que  los  dendrogramas  obtenidos 
mediante  el  metodo  del  maximo  y mediante  el  metodo  UPGMA  son  los  mas  parecidos  a las 
agrupaciones  que  muestra  la  Figura  6.3. 


Figura  6.3. 

Representacion  en  coordenadas  principales  y agrupaciones  (Problema  5.3) 


PROBLEMA  6.4 


Considerense  los  datos  del  Problema  5.4.  Sea  D:  J-:i  la  matriz  de  cuadrados  de  distan- 
ces obtenida  a partir  del  coeficiente  de  similaridad  de  Sokal  y Michener. 

(a)  Verifiquese  que  D no  es  ultrametrica. 

(b)  Realicense  clasificaciones  jerdrquicas  mediante  los  metodos  del  minimo,  del 
maximo  y UPGMA.  i Que  diferencias  se  observan  ? 

(c)  Calculese  la  correlacion  cofenetica  en  cada  caso. 

(d)  Compdrense  los  dendrogramas  con  la  representacion  en  coordenadas  principa- 
les que  muestra  la  Figura  5.4 
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( some  ion  ) 


(a)  El  conjunto  de  individuos  sobre  el  que  debemos  realizar  clasificaciones  jerarquicas  es 

£ = {leon,  jirafa,  vaca,  oveja,  gato  domestico,  hombre}. 

A partir  de  la  matriz  D2_Sokal  de  cuadrados  de  distancias  obtenida  en  el  Problema  5.4, 
calculamos  la  matriz  de  distancias: 

D = sqrt (D2_Sokal) ; 


= [ 0 

0 . 8165 

1 .0000 

1 . 0000 

0 . 5774 

1 . 0000 

0 . 8165 

0 

1 .0000 

1 . 0000 

1 . 0000 

1.2910 

1 .0000 

1 .0000 

0 

0 

0 . 8165 

1 . 1547 

1 .0000 

1 .0000 

0 

0 

0 .8165 

1 . 1547 

0 . 5774 

1 .0000 

0 . 8165 

0 .8165 

0 

0 .8165 

1 .0000 

1.2910 

1 . 1547 

1 . 1547 

0 .8165 

0 

Puede  comprobarse  que  la  matriz  D no  es  ultrametrica  puesto  que,  por  ejemplo, 

<5^3  = 1 > nrax{<5i,5,  5.5,3}  = max{0. 5774,  0.8165}. 


(b)  Para  obtener  los  dendrogramas  haremos: 

Y = squaref orm (D) ; 

Z_min  = linkage (Y, ' single' ) ; 
Z_max  = linkage (Y, ' complete' ) ; 
Z_UPGMA  = linkage (Y, ' average' ) ; 
dendrogram (Z_min) 
dendrogram ( Z_max) 
dendrogram ( Z_UPGMA) 


La  Figura  6.4  contiene  los  dendrogramas  obtenidos  mediante  los  tres  metodos  anteriores.  De 
nuevo  puede  observarse  que  el  metodo  del  mmimo  contrae  el  espacio,  mientras  que  el  metodo 
del  maximo  lo  dilata. 


(c)  Las  correlaciones  son 


c_min=0 .8846, 
c_max=0 .8556, 

C UPGMA=0 . 8985. 


(d)  La  Figura  6.5  contiene  la  representation  en  coordenadas  principales  de  los  animales. 
Observad  el  parecido  de  las  proximidades  entre  individuos  que  refleja  esta  figura  con  la  clasi- 
ficacion  jerarquica  obtenida  mediante  el  metodo  del  maximo. 
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(a) 


lb) 


(c) 

Figura  6.4. 

Dendrogramas  con  los  datos  del  Problema  6.4:  metodos  (a)  del  mi'nimo,  (b)  del  maximo  y (c) 


UPGMA. 


Representacion  en  coordenadas  principales  y agrupaciones  (Problema  5.4) 
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PROBLEMA  6.5 


La  Tabla  4. 1 contiene  una  serie  de  indicadores  econdmicos  y sociales  sobre  96  paises 
del  mundo.  Sea  Y la  matriz  que  contiene  las  dos  primeras  componentes  principales 
calculadas  a partir  de  la  matriz  de  correlaciones  (vease  el  Problema  4.4).  Obten- 
ganse  las  distancias  euclideas  entre  paises  a partir  deYy  realicese  una  clasificacion 
jerdrquica  mediante  el  metodo  UPGMA.  Comentense  los  resultados  obtenidos. 


( SOLUC  ION  ) 

Partimos  de  la  matriz  X que  contiene  los  datos  de  la  Tabla  4.1.  En  primer  lugar  calculamos  las 
componentes  principales  (vease  el  Problema  4.4)  y nos  quedamos  solamente  con  las  dos  pri- 
meras componentes  calculadas  a partir  de  la  matriz  de  correlaciones,  es  decir,  las  dos  primeras 
columnas  de  Y2.  La  funcion  interna  de  Matlab  pdist  permite  calcular  distintas  funciones  de 
distancia  a partir  de  matrices  de  datos.  Para  calcular  la  distancia  euclfdea  haremos, 

pdist (Y2 , ' euclidean' ) 

o,  simplemente 

pdist ( Y2 ) 

puesto  que  esta  es  la  distancia  que  la  funcion  pdist  calcula  por  defecto.  Si,  en  cambio, 
quisieramos  calcular  la  distancia  de  Mahalanobis,  harfamos 

pdist (Y2 , ' mahalanobis ' ) 

El  siguiente  codigo  resuelve  el  ejercicio: 

[T1 , Y1 , acuml , T2 , Y2 , acum2]  = comp (X) ; 

Y2  = Y2  ( : , 1 : 2 ) ; 

Y = pdist (Y2 ,' euclidean' ) ; 

Z = linkage (Y, ' average' ) ; 
dendrogram ( Z , 0 , ' colorthreshold' ,1.5) 
c = cophenet (Z , Y) 

Por  defecto,  la  funcion 

dendrogram ( Z , p , ' colorthreshold' , t ) 

genera  dendrogramas  a partir  de  los  ultimos  p = 30  conglomerados  formados  y asigna  colores 
distintos  a los  conglomerados  que  se  forman  a un  nivel  (o  threshold ) menor  que  el  valor  de  / . Si 
inicialmente  tenemos  mas  de  30  individuos,  como  en  este  ejercicio,  hay  que  indicarle  que  los 
dibuje  todos  mediante  la  option  p = 0.  Hemos  puesto  t = 1.5  para  que  asigne  colores  distintos 
a los  conglomerados  que  se  han  formado  a una  distancia  menor  de  1.5.  La  Figura  6.6  contiene 
el  dendrograma  calculado  a partir  del  metodo  UPGMA.  Observad  las  distintas  agrupaciones 
que  se  forman  segun  el  nivel  que  se  considere.  El  coeficiente  de  correlation  cofenetica  es 
C = 0.8028. 
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Figura  6.6. 

Dendrograma  con  los  datos  del  Problema  6.5. 


Se  ha  realizado  una  encuesta  a un  grupo  de  personas  pidiendoles  que  clasificaran 
una  lista  de  hortalizas  segun  sus  parecidos.  La  Tabla  6.4  contiene  la  matriz  de  disi- 
milaridades  entre  estos  hortalizas.  Realicese  un  andlisis  de  clasificacidn  jerdrquica 
mediante  los  metodos  del  centroide,  de  la  mediana  y de  Ward.  Obtengase  la  correla- 
cion  cofenetica  en  cada  caso. 


Sea  D la  matriz  de  disimilaridades  de  la  Tabla  6.4.  Para  poder  aplicar  cualquiera  de  los  tres 
metodos  (centroide,  mediana.  Ward)  es  necesario  que  la  matriz  de  disimilaridades  sea  euclrdea. 
Puesto  que  este  no  es  el  caso  de  la  matriz  D,  en  primer  lugar  debemos  euclidianizar  esta  matriz 
de  distancias.  Para  ello  utilizaremos  la  funcion  non2euclid,  que  vimos  en  el  Problema  5.7, 
y que  realiza  este  tipo  de  transformaciones  para  matrices  de  cuadrados  de  distancias. 


D2  = D . * D ; D2_euclid  = non2euclid (D2 ) ; 
D_euclid  = sqrt (D2_euclid) ; 

Y = squaref orm (D_euclid) ; 
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Tabla  6.4. 

Matriz  de  distancias  entre  hortalizas  (Problema  6.6) 


1 2 

3 

4 

5 

6 

7 

8 

9 

1.  nabo 

0 0.318 

0.270 

0.311 

0.378 

0.392 

0.399 

0.392 

0.426 

2.  col 

0 

0.101 

0.223 

0.243 

0.236 

0.311 

0.345 

0.358 

3.  remolacha 

0 

0.061 

0.236 

0.176 

0.345 

0.297 

0.318 

4.  esparrago 

0 

0.061 

0.088 

0.176 

0.101 

0.230 

5.  zanahoria 

0 

0.007 

0.074 

0.209 

0.264 

6.  espinacas 

0 

0.128 

0.182 

0.128 

7.  judias  verdes 

0 

0.027 

0.142 

8.  guisantes 

0 

0.128 

9.  malz 

0 

Z_ward  = linkage (Y, ' ward' ) ; 

Z_median  = linkage (Y, 'median' ) ; 
Z_centroid  = linkage (Y, ' centroid' ) ; 


c_ward  = cophenet (Z , Y) ; 
c_median  = cophenet (Z_median, Y) ; 
c_centroid  = cophenet (Z_centroid,Y); 


dendrogram (Z_ward, ' colorthreshold' , 'default' ) 
dendrogram (Z_median, 'colorthreshold' , 'default' ) 
dendrogram ( Z_centroid, 'colorthreshold' , 'default'  ) 


Las  Figuras  6.7  y 6.8  contienen  los  dendrogramas  correspondientes  a los  tres  metodos.  Las 
correlaciones  son  c_ward=0 .6481,  c_median=0 .8460,  c_centroid=0 . 8213,  indi- 
cando  que  el  metodo  de  la  mediana  es  el  que  menos  distorsiona  la  aproximacion  de  la  matriz 
de  distancias  euclfdeas  por  la  de  distancias  ultrametricas. 


(a) 


(b) 


Figura  6.7. 

Dendrogramas  con  los  datos  del  Problema  6.6:  metodos  (a)  del  centroide  y (b)  de  la  mediana 
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562341789 


Figura  6.8. 

Dendrograma  con  los  datos  del  Problema  6.6:  metodo  de  Ward 
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CAPITULO 


Analisis  factorial 


El  analisis  factorial  intenta  describir  la  relacion  entre  varias  variables  dependientes 

Xu...,Xp 

a partir  de  un  numero  m,  menor  que  p,  de  variables  independientes  y no  observables, 
que  llamaremos  factores  (comunes) 


Fi,  ■ ■ ■ , Fm  . 

Algunas  preguntas  que  se  plantean  en  este  capitulo  son:  ^como  elegir  el  numero  m de 
factores  a utilizar?,  ^que  representan  los  factores  comunes?,  ^cual  es  el  modelo  que 
relaciona  las  variables  originates  y los  factores?,  quanta  informacion  proporcionan 
los  factores  comunes  acerca  de  las  variables  X,  ? 

Existe  una  estrecha  relacion  entre  el  analisis  factorial  y las  componentes  principa- 
les.  En  ambos  casos  se  intenta  aproximar  la  matriz  de  covarianzas  de 

x = (x1,...,xpy 


con  datos  de  dimension  m reducida.  Sin  embargo,  el  analisis  de  componentes  prin- 
cipales  se  centra  en  las  varianzas  de  las  Xt , mientras  que  el  analisis  factorial  intenta 
explicar  la  estructura  de  correlaciones  entre  las  valuables. 
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PROBLEMA  7.1 


Sea  X i in  vector  aleatorio  de  dimension  p = 3,  con  vector  de  medias  //  = (0, 1, 1 )'  y 
matriz  de  varianzas-covarianzas 


Se  sabe  que  X sigue  un  modelo  factorial  de  un  unico  factor,  con  matriz  de  varianzas 
e specific  as  = diag(  1,4, 1). 

(a)  Escribase  el  modelo  factorial  y calculese  la  matriz  de  cargas. 

(b)  Calculense  las  comunalidades  y los  porcentajes  de  variacion  de  cada  variable 
explicados  por  el  factor  del  modelo  obtenido  en  (a). 

(c)  Discutase  si  la  solucion  a los  apartados  (a)  y (b)  es  unica. 


/ 3 -4  2 

X = -4  12-2 

V 2 -2  3 


' SOLUCION  ) 


(a)  El  modelo  es 


X — p = L F + e, 


donde  L = (Zn,  Z21 , (3 1)'  es  la  matriz  de  cargas,  F es  una  variable  aleatoria  (el  factor  comun) 
con  E(F)  = 0 y var(F)  = 1 y e es  un  vector  aleatorio  de  dimension  p = 3 con  E(e)  = 0, 
Var(e)  = 4'  v Cov{F , e)  = 0.  Del  modelo  se  deduce  la  descomposicion 

S = LL'  + 

que  es  equivalente  a 

/ 2 -4  2 \ 

((11,(21,^31)  = X d/  = I —4  8 — 2 I . 

\ 2 -2  2 ) 

De  los  terminos  de  la  diagonal  obtenemos  (n  = ±i/2,  (21  = (31  = is/2.  De 

los  terminos  fuera  de  la  diagonal  obtenemos  signo((n)  = signori)  signo((2i).  Por  tanto, 
L = ±(v/2,  —2s/2,  v/2)/  y el  modelo  queda 


Xi  = y/2 F + ei 

X2-l  = -2s/2 F + e2 
X3-l  = V2F  + e3 


(o  con  los  signos  de  F cambiados). 


www.FreeLibros.me 


ANALISIS  FACTORIAL 


131 


(b)  La  comunalidad  I if  de  la  variable  Xt  es  el  elemento  i-esimo  de  la  diagonal  del  producto 
L L',  es  decir,  h\  = /(,  = 2.  Por  tanto,  el  porcentaje  de  variacion  de  X\  explicado  por  F 
es  igual  a h\/V{X i)  ~ 33.3%.  Analogamente  h\  = 8 y el  porcentaje  de  variacion  de  Xi 
explicado  por  F es  un  66.6%.  Y,  por  ultimo,  hi  = 2 y cl  porcentaje  de  variacion  de  X:> 
explicado  por  F es  33.3%. 

(c)  En  (a)  ya  se  ha  visto  que  la  solucion  no  es  unica.  En  general  se  sabe  que  se  pueden 
efectuar  rotaciones  (que  en  dimension  1 equivalen  a cambiar  el  signo  de  L).  En  (b)  la  solucion 
sf  es  unica. 


PROBLEMA  7.2 


La  matriz 

/ 1 0.69  0.28  0.35  \ 

1 0.255  0.195 

“ 1 0.61 

V 1 

exhibe  las  correlaciones  muestrales  entre  cuatro  variables  que  caracterizan  el  estado 
financiero  de  una  empresa. 


(a)  Calculense  los  autovalores  y autovectores  de  R. 

(b)  Planteese  el  modelo  factorial  ortogonal  con  m f adores  para  el  vector  X que 
genero  estos  datos. 

(c)  Mediante  el  metodo  de  la  componente  principal,  en  los  modelos  factoriales  con 
m = 2 y m = 3 facto  res,  calculense  las  matrices  de  cargos,  las  comunalida- 
des  y el  porcentaje  que  supone  la  comunalidad  respecto  a la  varianza  de  cada 
variable. 


(d)  Decfdase  razonadamente  entre  el  modelo  con  dos  o tres  factores. 

(e)  Para  el  modelo  seleccionado  en  el  apartado  (d),  calculense  las  correlaciones 
entre  Zi  (la  variable  X2  estandarizada)  y todos  los  factores.  Estfmese  la  va- 
rianza especffica  para  Zo. 


( SOLUCION  ) 


(a)  Sea  R la  matriz  R introducida  en  Matlab.  Con  la  orden  eig  (R)  calculamos  los  autova- 
lores A y autovectores  (normalizados)  e de  esta  matriz 

Auto  valor  Auto  vector 

TTL39  (-0.4243,  -0.5397, 0.5123, 0.5160)' 

0.2681  (0.6419,  -0.6018, 0.2825,  -0.3821)' 

2.1935  (0.5400, 0.4938, 0.4797, 0.4842)' 

0.4245  (0.3411,  -0.3206,  -0.6539, 0.5944)' 
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(b)  El  modelo  factorial  ortogonal  con  in  factores  comunes  F = ( F\ , . . . , Frn)'  supone  que 
= li\F\  + Zj2-F2  + . . . + limFm  + £i)  f = 1,  . . . , 4, 


donde  las  Z,  son  las  variables  Xt  estandarizadas  ye  = (ei, . , . , 64)'  denotan  los  factores 
especfficos.  Se  establecen  las  siguientes  hipotesis:  E ( F)  = 0,  Var(F)  = I,  la  matriz  identidad 
to  x to,  E(e)  = 0 y Var(e)  = = diag(^i, . . . , 1/14).  Ademas  F y e son  incorrelados,  es 

decir,  Cov(F,  e)  = 0. 

(c)  Si  la  matriz  de  cargas  es 


L = 


( In  I12  ...  llm 

\ hi  U‘2  hm 


el  metodo  de  la  componente  principal  en  el  analisis  factorial  con  m factores  proporciona  la 
estimacion 

L = [\/ A?e  1 . . . . , \J Amem] , 

siendo  Ai, . . . , \m  los  to  primeros  autovalores  de  R (ordenados  de  mayor  a menor)  y siendo 
ei, . . . , em  los  autovectores  normalizados  correspondientes.  Concretamente,  para  m = 2: 


L = 


Comunalidades 

0.7998 

0.7313 

—0.4478  \ 
-0.5696 

hi 

— / 2 i/2  . 

— l:1  t12  - 

0.7105 

0.5407 

hi 

= 0.8593 

0.7171 

0.5446  j 

hi 

= 0.7971 

hi 

= 0.8108 

= 0.8402 


Para  to  = 3 


0.7998 

-0.4478 

0.2222 

0.7313 

-0.5696 

-0.2089 

0.7105 

0.5407 

-0.426 

0.7171 

0.5446 

0.3873 

Comunalidades 

h\  = 1^  + l\ 2 + ?i3  = 0.8896 
hi  = 0.9029 
h\  = 0.9786 
h\  = 0.9608 


Dado  que  var(Zi)  = 1 para  1 = 1 .... . f el  porcentaje  que  supone  la  comunalidad  respecto  a 
la  varianza  de  cada  Zi  coincide  con  la  comunalidad. 


(d)  La  varianza  total  en  este  caso  es  4.  El  porcentaje  de  VT(R)  que  explica  el  modelo  con 
dos  factores  es 


100%(Ai  + A2)/  VT(R)  = 82.68% 


y el  de  tres  factores  es 


100%(Ai  + A2  + A3)/  VT(R)  = 93.30%. 

Teniendo  en  cuenta  que,  para  el  modelo  con  dos  factores,  h‘l  es  un  poco  baja  es  razonable 
quedarse  con  el  modelo  de  to  = 3 factores. 
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(e)  Sabiendo  que  Cov(Z j,  Fj)  = Ijj  tenemos 

Corr(Z2,Fi)  = l21/VFl  = 0.7313,  Corr(Z2lF2)  = -0.5696,  Corr(Z2,F3)  = -0.2089. 


Para  el  modelo  con  tres  factores  la  estimacion  de  la  varianza  especffica  de  Z2  es 


,/,2  = 1 - hi  = 1 - 0.9029  = 0.0971 . 


PROBLEMA  7.3 


En  la  Tabla  7.1  se  puede  ver  una  lista  de  variables  que  caracterizan  el  grado  de 
desarrollo  de  algunos  pafses  del  mundo.  Las  variables  son 

X\  = Tasa  de  mortalidad  infantil  por  cada  1000  nacidos  vivos, 

X2  = Porcentaje  de  mujeres  en  la  poblacion  activa, 

X:>  = Producto  Nacional  Bruto  (PNB)  per  capita  en  1995  (en  $), 

X4  = Produccion  de  electricidad  (en  millones  de  kw/h), 

X~,  = Promedio  de  Imeas  telefonicas  por  cada  1000  habitantes, 

Xq  = Consumo  de  agua  per  capita  en  m3  (de  1980  a 1995), 

Xf  = Consumo  de  energfa  per  capita  en  1994, 

X$  = Emision  de  CO  > per  capita  en  1992  (en  Tm). 

(a)  Supongase  un  modelo  factorial  ortogonal  para  las  variables  Xi  estandariza- 
das.  UtiUcese  el  metodo  de  la  component e principal  para  estimar  la  matriz  de 
cargas  en  los  modelos  con  tres  y cuatro  factores  comunes. 

(b)  Estunense  las  comunalidades  y las  varianzas  especfficas  para  los  dos  modelos 
del  apartado  anterior.  1 Cudl  de  los  dos  modelos  es  razonable  elegir? 


Tabla  7.1. 

Variables  socioeconomicas  de  algunos  pafses  (Problema  7.3) 


Pais 

-Yi 

X2 

*3 

X4 

*5 

*6 

X7 

*8 

Albania 

30 

41 

670 

3903 

12 

94 

341 

1.2 

Angola 

124 

46 

410 

955 

6 

57 

89 

0.5 

Benin 

95 

48 

370 

6 

5 

26 

20 

0.1 

Congo 

90 

43 

680 

435 

8 

20 

331 

1.6 

Etiopia 

112 

41 

100 

1293 

2 

51 

22 

0.1 

Ghana 

73 

51 

390 

6115 

4 

35 

93 

0.2 

Haiti 

72 

43 

250 

362 

8 

7 

29 

0.1 

Honduras 

45 

30 

600 

2672 

29 

294 

204 

0.6 

Kenia 

58 

46 

280 

3539 

9 

87 

110 

0.2 

Mozambique 

113 

48 

80 

490 

3 

55 

40 

0.1 

Nepal 

91 

40 

200 

927 

4 

150 

28 

0.1 

Nicaragua 

46 

36 

380 

1688 

23 

367 

300 

0.6 

Senegal 

62 

42 

600 

1002 

10 

202 

97 

0.4 

Sudan 

77 

28 

260 

1333 

3 

633 

66 

0.1 

Tanzania 

82 

49 

120 

1913 

3 

40 

34 

0.1 

Yemen 

100 

29 

260 

2159 

12 

335 

206 

0.7 

Zambia 

109 

45 

400 

7785 

8 

186 

149 

0.3 

Zimbawe 

55 

44 

540 

7334 

14 

136 

438 

1.8 
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' SOLUCION  ) 


(a)  A1  definir  el  modelo  factorial  sobre  las  variables  estandarizadas  Z,,  aplicaremos  el  me- 
todo  de  la  componente  principal  sobre  la  matriz  de  correlaciones  R cuyos  cuatro  mayores 
autovalores  son 


Ai  = 3.7540 , A2  = 1.9286  , A3  = 0.8359 , A4  = 0.7230 . 


La  matriz  de  cargas  obtenida  mediante  el  metodo  de  la  componente  principal  para  tres  factores 


-0.7235 

0.0645 

0.0297 

-0.4309 

0.8491 

-0.0415 

0.8018 

0.2775 

0.2472 

0.4166 

0.3978 

-0.8072 

0.7958 

-0.2550 

0.0834 

0.3429 

-0.8406 

-0.2737 

0.9147 

0.2342 

0.0129 

0.8006 

0.3764 

0.1965 

y para  cuatro  factores  es: 


-0.7235 

0.0645 

0.0297 

-0.5996 

-0.4309 

0.8491 

-0.0415 

0.2041 

0.8018 

0.2775 

0.2472 

0.0212 

0.4166 

0.3978 

-0.8072 

-0.0331 

0.7958 

-0.2550 

0.0834 

0.2946 

0.3429 

-0.8406 

-0.2737 

-0.1754 

0.9147 

0.2342 

0.0129 

-0.2369 

0.8006 

0.3764 

0.1965 

-0.3830 

Observando  la  matriz  L vemos  que  en  el  modelo  con  tres  factores,  F\,  F2  y F3,  la  segunda 
variable  Z 2 y la  sexta  Zfl  quedanan  descritas  principalmente  por  f 2.  Por  otro  lado,  serviria 
para  caracterizar  las  variables  Z\ , Z3,  Z-j  y Z%,  y,  por  tanto,  rcpresentan'a  el  grado  de 
desarrollo  economico  e industrial  del  pais.  El  tercer  factor  esta  unicamente  determinado  por  la 
produccion  de  electricidad.  Observemos  que  los  pesos  de  la  cuarta  columna  de  L = {hj}  en 
el  modelo  con  cuatro  factores  no  son  excesivamente  altos  salvo  en  el  caso  de  1 14.  Esto  sugiere 
que  anadir  el  cuarto  factor  no  aporta  demasiada  information. 

El  siguiente  codigo  es  util  para  realizar  estos  calculos.  Llamamos  X a la  matriz  de  datos  y 
eigsort  es  una  funcion  definida  en  el  Capftulo  4: 


v = size (X)  ; 

R = corrcoef (X) ; 

[autovectores , autovalores]  = eigsort (R) ; 
proporcion=cumsum (autovalores) /trace (R) ; 
f = 4; 

% Cargas  para  f=4  factores  comunes  (metodo:  componente  principal) 
L = autovectores ( : , [1 : f ] ) . * (ones (v (2) , 1)  ... 

* (sqrt (autovalores ( [1 : f ],:)))'); 
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(b)  Recordemos  que  las  comunalidades  hf  son  los  elementos  de  la  diagonal  de  LL'.  Como 
las  variables  Z>  estan  estandarizadas  var(Z,)  = 1 y,  por  tanto,  la  varianza  especffica  es 
diag('Sf)  = diag(£)  — diag(LL').  Concretamente, 


in  = 3 to  = 4 


hi 

= 0.5285 

ipi 

= 0.4715 

hi 

= 0.8879 

fii 

hi 

= 0.9084 

V>2 

= 0.0916 

hi 

= 0.9500 

f>2 

hi 

= 0.7810 

V>3 

= 0.2190 

hi 

= 0.7815 

h\ 

= 0.9833 

1p4 

= 0.0167 

hi 

= 0.9844 

1p4 

hi 

= 0.7052 

V>5 

= 0.2948 

hi 

= 0.7920 

f>5 

K 

= 0.8992 

i>6 

= 0.1008 

hi 

= 0.9299 

i>6 

hi 

= 0.8917 

1p7 

= 0.1083 

hi 

= 0.9478 

i>7 

hi 

= 0.8212 

i>8 

= 0.1788 

hi 

= 0.9679 

0.1121 

0.0500 

0.2185 

0.0156 

0.2080 

0.0701 

0.0522 

0.0321 


Dado  que  con  tres  factores  la  comunalidad  h\  es  baja,  serfa  mas  adecuado  utilizar  el  modelo 
con  cuatro  factores.  Con  Matlab  haremos: 


comunalidad  = diag(L*L'); 
psi  = diag(R-L*L')  ; 

Recomendamos  al  lector  que,  con  el  codigo  empleado  en  este  ejercicio,  construya  una  funcion 
Matlab  que  permita  obtener  la  matriz  de  cargas,  la  proporcion  de  variabilidad,  las  comunali- 
dades y las  varianzas  especfficas,  a partir  de  una  matriz  de  datos  X y de  un  numero  de  factores 
f. 


PROBLEMA  7.4 


Sea  X = (Xi,  X-2,  X3 )'  un  vector  aleatorio  con  matriz  de  covarianzas 

/ 1 0.63  0.45  \ 

S = 0.63  1 0.35  . 

V 0.45  0.35  1 / 

(a)  Pruebese  que  el  modelo  factorial  con  rn  = 1 es  vdlido  en  este  caso.  Calculense 
la  matriz  de  cargas  y la  de  varianzas  especfficas. 

(b)  Si  se  toma  m = 2 £ cud l seria  la  aproximacion  de  la  matriz  de  cargas  que 
proporcionaria  el  metodo  de  la  componente  principal? 


( SOLUC ION  ) 


(a)  Puesto  que  S = LL'  + 4/,  donde  L = (In,  I21, 131 )\  entonces 

l = ^ii+V’i,  0.63  = Z11Z21 , 0.45  = Z11Z31, 

1 = Z|i  + f>2,  0.35  = I21I31, 

1 = ^31  + ^3) 

obteniendo  In  = 0.9, 121  = 0.7,  /31  = 0.5,  = 0.19,  ^2  = 0.51,  ^3  = 0.75. 
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(b)  Dado  que  los  dos  mayores  autovalores  y autovectores  de  E son 

Ai  = 1.9633  ei  = (0.6250, 0.5932, 0.5075)' 

A2  = 0.6795  e2  = (0.2186, 0.4911,  -0.8432)' 

la  estimacion  de  la  matriz  de  cargas  es: 

0.8757  0.1802  \ 

0.8312  0.4048 

0.7111  -0.6951  ) 


PROBLEMA  7.5 


Un  banco  dispone  de  una  muestra  de  51  entidades  financieras  que  cotizan  ciertos  de- 
rivados  financieros  cuyo  valor  en  mercado  permite  estimar  la  probabilidad  de  que  la 
empresa  quiebre  en  el  plazo  de  un  alio  y,  en  caso  de  quiebra,  la  tasa  de  recuperacion 
de  la  misma.  Las  empresas  observadas  tambien  ban  sido  analizadas  por  dos  agendas 
de  calificacion  externas,  que  ban  estimado  la  probabilidad  de  quiebra  a un  aiio  ba- 
sdndose  en  auditorias  realizadas.  En  la  Tabla  7.2  se  pueden  ver  las  obsetvaciones  de 
las  siguientes  variables: 

X | = Nivel  crediticio  otorgado  por  el  banco  intemamente  a la  entidad, 

X‘>  = Numero  de  diets  que  ha  cotizado  en  mercado  el  derivado  financiero, 

Xj  = Probabilidad  de  quiebra  deducida  del  derivado, 

X4  = Tasa  de  recuperacion  deducida  del  derivado, 

X5  = Probabilidad  de  quiebra  emitida  por  la  primera  agenda  externa, 

Xg  = Probabilidad  de  quiebra  emitida  por  la  segunda  agenda  externa. 

(a)  Calculese  la  matriz  de  correlaciones  muestrales  R. 

(b)  Efectuese  un  andlisis  factorial  de  R con  dos  factores  por  el  metodo  de  la  com- 
ponente  principal. 

(c)  Detemrinense  las  comunalidades  y la  proporcion  de  varianza  total  explicada 
con  los  dos  factores.  Expllquese  si  se  considera  necesario  aumentar  el  numero 
de  factores  comunes. 


SOLUCION  ) 


(a)  La  matriz  de  correlaciones  es 


/ 1 

R = 

V 


0.2050  -0.8038  0.7255 

1 -0.2521  -0.0409 

1 -0.7269 
1 


-0.5141 

-0.4053 

0.7622 

-0.4105 

1 


-0.5971  \ 
-0.3580 
0.8813 
-0.5404 
0.9370 
1 / 
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Tabla  7.2. 

Datos  de  entidades  financieras  (Problema  7.5) 


Entidad 

a2 

*3 

x4 

A's 

a6 

t 

7.6 

630 

0.00070 

0.36 

0.00041 

0.00003 

2 

7.8 

630 

0.00056 

0.39 

0.00041 

0.00003 

3 

8.1 

630 

0.00049 

0.40 

0.00041 

0.00003 

4 

7.5 

630 

0.00060 

0.39 

0.00041 

0.00026 

5 

7.5 

630 

0.00047 

0.40 

0.00041 

0.00026 

6 

8.3 

630 

0.00055 

0.40 

0.00041 

0.00019 

7 

7.4 

630 

0.00057 

0.40 

0.00042 

0.00026 

8 

6.5 

630 

0.00190 

0.35 

0.00042 

0.00037 

9 

8.0 

630 

0.00088 

0.38 

0.00052 

0.00003 

10 

8.0 

630 

0.00049 

0.39 

0.00052 

0.00003 

11 

8.7 

630 

0.00044 

0.42 

0.00052 

0.00000 

12 

8.3 

630 

0.00055 

0.39 

0.00052 

0.00019 

13 

8.5 

630 

0.00032 

0.40 

0.00052 

0.00019 

14 

8.6 

630 

0.00043 

0.40 

0.00052 

0.00019 

15 

8.6 

630 

0.00029 

0.40 

0.00000 

0.00000 

16 

8.5 

630 

0.00029 

0.40 

0.00000 

0.00000 

17 

8.6 

630 

0.00031 

0.40 

0.00000 

0.00000 

18 

8.7 

630 

0.00027 

0.40 

0.00000 

0.00019 

19 

8.5 

630 

0.00047 

0.39 

0.00020 

0.00000 

20 

8.9 

630 

0.00058 

0.40 

0.00020 

0.00000 

21 

8.5 

630 

0.00032 

0.40 

0.00020 

0.00000 

22 

8.7 

630 

0.00035 

0.40 

0.00020 

0.00000 

23 

8.6 

630 

0.00039 

0.40 

0.00020 

0.00019 

24 

8.6 

630 

0.00031 

0.40 

0.00020 

0.00019 

25 

9.1 

630 

0.00029 

0.42 

0.00000 

0.00000 

26 

8.7 

630 

0.00023 

0.40 

0.00000 

0.00019 

27 

7.8 

629 

0.00047 

0.39 

0.00041 

0.00026 

28 

7.8 

629 

0.00047 

0.40 

0.00042 

0.00003 

29 

6.5 

629 

0.00109 

0.39 

0.00000 

0.00000 

30 

8.5 

629 

0.00029 

0.40 

0.00000 

0.00000 

31 

8.5 

629 

0.00029 

0.40 

0.00000 

0.00000 

32 

7.0 

627 

0.00069 

0.37 

0.00041 

0.00003 

33 

7.0 

627 

0.00106 

0.34 

0.00042 

0.00037 

34 

6.7 

627 

0.00191 

0.33 

0.00042 

0.00166 

35 

8.6 

627 

0.00037 

0.39 

0.00020 

0.00019 

36 

7.5 

625 

0.00071 

0.41 

0.00042 

0.00037 

37 

6.7 

624 

0.00171 

0.32 

0.00042 

0.00166 

38 

8.1 

617 

0.00048 

0.39 

0.00052 

0.00003 

39 

7.7 

614 

0.00066 

0.41 

0.00041 

0.00026 

40 

6.7 

613 

0.00235 

0.35 

0.00042 

0.00166 

41 

8.1 

612 

0.00043 

0.38 

0.00052 

0.00019 

42 

7.5 

610 

0.00046 

0.41 

0.00041 

0.00026 

43 

8.4 

602 

0.00041 

0.46 

0.00000 

0.00000 

44 

8.1 

594 

0.00047 

0.39 

0.00052 

0.00019 

45 

7.7 

593 

0.00047 

0.38 

0.00041 

0.00003 

46 

8.5 

593 

0.00057 

0.41 

0.00052 

0.00019 

47 

8.7 

584 

0.00041 

0.43 

0.00000 

0.00000 

48 

8.3 

573 

0.00044 

0.41 

0.00052 

0.00019 

49 

5.6 

573 

0.00408 

0.33 

0.00647 

0.00780 

50 

7.3 

572 

0.00066 

0.39 

0.00042 

0.00026 

51 

8.0 

572 

0.00035 

0.40 

0.00052 

0.00019 

(b)  La  matriz  de  cargas  estimada  por  el  metodo  de  la  componente  principal  es 


L = 


/ -0.8251 
-0.3680 
0.9594 
-0.7404 
0.8592 
V 0.9277 


0.2780  \ 
-0.8062 
-0.1061 
0.5406 
0.3115 
0.1802  ) 


Observemos  que  el  primer  factor  representa  la  calidad  crediticia  de  la  entidad,  mientras  que  el 
segundo  describe  el  comportamiento  del  derivado. 


(c)  La  proportion  de  varianza  total  explicada  con  dos  factores  es  de  un  84.07%.  Las  co- 
munalidades  son  h\  = 0.7581,  h\  = 0.7853,  h\  = 0.9317,  h\  = 0.8404,  h\  = 0.8353  y 
/(g  = 0.8931.  Dado  que  las  comunalidades  son  bastante  altas,  en  principio  no  serfa  necesario 
anadir  un  tercer  factor  comun. 
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PROBLEMA  7.6 


Consideremos  los  datos  del  Problemci  7.5. 

(a)  Representense  los  pares  de  cargos  de  la  matriz  L,  (ln,li2),  i = 1,  • • • , 6,  como 
sifueran  puntos  de  un  piano.  Rotense  los  ejes  de  coordenadas  manualmente 
con  distintos  angulos  4>  y representense  las  cargos  rotadas  en  un  nuevo  grdfico. 
Decidase  que  dngulo  de  rotacion  parece  mas  adecuado. 

(b)  Demuestrese  que  la  matriz 

f 0.8839  0.4677  \ 

“ V -0.4677  0.8839  ) 

es  ortogonal.  UtiUcese  esta  matriz  para  rotar  la  matriz  de  cargos  obtenida  en  el 
Problema  7.5  e interpretense  los  coeficientes  de  la  matriz  rotada. 


’ SOLUCION  ) 


(a)  Se  puede  utilizar  el  siguiente  codigo  (supondremos  L ya  introducida): 

plot (L ( : , 1 ) , L ( : , 2 ) , ' ok' , ' MarkerFaceColor ' , ' k' , ' MarkerSize ' , 6 ) 
hold  on 

plot ([-1,1], [0,0],' -k' ) 
hold  on 

plot ([0,0], [-1,1],' -k' ) 
xlabel ( ' F_1 ' , ' Font Size ' , 16 ) 
ylabel ( ' F_2 ' , ' FontSize ' , 16 ) 

phi  = pi/ 12  ; 

T = [ cos (phi)  sin (phi)  ; -sin (phi)  cos (phi)  ] ; 

LRotada  = L*T  ; 
figure  (2) 

plot (LRotada ( : , 1) , LRotada ( : , 2 ) , ' ok' , ' MarkerFaceColor' , ' k' , . . . 

' MarkerSize ' , 6 ) 
hold  on 

plot ([-1,1],  [0,0],' -k' ) 
hold  on 

plot ([0,0], [-1,1],' -k' ) 
xlabel ( ' F_1 ' , ' FontSize ' , 16 ) 
ylabel ( ' F_2 ' , ' FontSize ' , 16 ) 
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Observemos  que  la  matriz  T efectua  un  giro  en  sentido  contrario  a las  agujas  del  reloj.  Se  ha 
elegido  ese  valor  de  <j>  porque  era  el  que  a simple  vista  aproximaba  mas  los  puntos  (In,  1 12)  a 
los  ejes  de  coordenadas  (vease  Figura  7.1). 


(a) 


(b) 


Figura  7.1. 

Representacion  de  cargas  (a)  sin  rotar,  (b)  rotadas  (Problema  7.6) 


(b)  La  matriz  T es  ortogonal  porque 


rp  rp/  rp/  p j 


la  matriz  identidad.  La  matriz  de  cargas  rotada  es 


L*  = LT  = 


/ -0.8593 
0.0518 
0.8976 
-0.9072 
0.6138 
\ 0.7357 


-0.1402  \ 
-0.8847 
0.3549 
0.1315 
0.6772 
0.5931 


Observemos  que  un  aumento  de  f j*  conlleva  una  disminucion  de  la  calificacion  interna  de  la 
entidad  o de  su  tasa  de  recuperacion  en  caso  de  quiebra.  Por  otro  lado,  la  probabilidad  de 
impago  evaluada  por  cualquiera  de  las  dos  agendas  crediticias  es  una  suerte  de  media  ponde- 
rada  entre  y F£,  de  manera  que  al  aumentar  ambos  factores  (por  ejemplo,  si  disminuye  el 
numero  de  dfas  de  cotizacion  del  derivado),  aumenta  tambien  la  probabilidad  de  impago. 
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PROBLEMA  7.7 


Kaiser  (1958)  sugirid  la  rotacion  varimax  de  los  f adores,  que  elige  aquella  matriz 
ortogonal  T que  maximiza 


donde  L*  = LT  = (l*-)  es  la  matriz  de  las  cargos  rotadas,  /*■  = l*j/hi,  para 
i = 1, . . . ,p,  j = 1, . . . , m,  son  las  cargos  rotadas  y reescaladas  por  la  raiz  cuadrada 
de  la  comunalidad,  m es  el  numero  de  factores  y p es  la  dimension  de  los  datos  ori- 
ginales.  Dese  una  explicacion  intuitiva  del  criterio  varimax.  Bdjese  de  la  pdgina  web 
de  T.  Park  (www.stat.ufl. edu/^tpark/Re  search)  elfichero  varimaxTP  .my  calculese 
con  el  la  rotacion  varimax  de  la  matriz  L obtenida  en  el  Problema  7.5.  Representense 
en  el  piano  las  nuevas  cargos  rotadas. 

Indication:  En  la  Statistics  Toolbox  de  la  version  7 de  Matlab  y superiores  ya  hay 
programas  de  andlisis  factorial.  Vease  la  orden  rotatef  actors  para  rotor  una 
matriz  de  cargos. 


' SOLUCION  ) 


Observemos  que 


siendo 


Por  tanto. 


1 p ( p i 

y l \i= 1 1 


= var(i*% 


7*2  (J*2  r*2y 

lj  — ’ ■ ■ ■ Ppj  ) ■ 


v = J2  varfi2  )• 

i= i 


Maximizar  V equivale  a que  los  cuadrados  de  las  cargas  esten  lo  mas  dispersos  posible  sobre 
cada  factor,  de  manera  que  las  cargas  sean  en  valor  absoluto  o muy  grandes  o muy  pequenas, 
pero  no  tomen  valores  intermedios. 

Para  calcular  la  rotacion  varimax  en  Matlab  escribiremos 


[RotVarimax, Lvarimax]  = varimaxTP (L)  ; 

o tambien  (si  tenemos  acceso  a la  Statistics  Toolbox  de  Matlab  7.x) 

[Lvarimax, RotVarimax]  = rotatef actors (L, ' Method' Varimax' ) ; 
y dibujar  las  cargas  rotadas  Lvarimax  como  ya  hicimos  en  el  Problema  7.6. 
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PROBLEMA  7.8 


(a)  Para  los  datos  del  Problema  7.3  y el  numero  m defactores  elegidos  en  el  apar- 
tado  ( b)  del  mismo  problema , calculese  la  rotacion  varimax  con  el  programa 
varimaxTP  . m presentado  en  el  Problema  7.7.  Calculese  la  correspondiente 
matriz  de  cargas  rotada. 

(b)  Para  la  matriz  de  cargas  obtenida  en  el  apartado  (a),  estunense  los  valores 
observados  de  los  f adores  ( los  llamados  scores)  por  el  metodo  de  minimos  cua- 
drados  ponderados  ( vet;  por  ejemplo,  Johnson  y Wichem  2007). 


( SOLUC ION  ) 


(a)  En  el  Problema  7.3  habiamos  elegido  el  modelo  con  cuatro  factores.  Con  un  codigo 
analogo  al  utilizado  en  el  Problema  7.7,  comprobamos  que  la  rotacion  varimax  viene  dada  por 
la  matriz  ortogonal 


/ 0.7439  —0.3189 

0.3590  0.8826 

0.3124  0.1841 

\ -0.4692  0.2922 


-0.2271  0.5415  \ 

-0.2885  -0.0944 
0.9294  0.0691 

0.0379  0.8325  / 


La  matriz  de  cargas  rotada  (que  en  Matlab  llamaremos  Lvarimax)  es: 


/ 

-0.2245 

0.1179 

0.1505 

-0.8950 

-0.1245 

0.9389 

-0.1779 

-0.1464 

0.7634 

0.0410 

-0.0316 

0.4428 

0.2161 

0.0600 

-0.9608 

0.1047 

0.3883 

-0.3774 

-0.0185 

0.7060 

-0.0499 

-0.9529 

-0.0964 

0.1001 

V 

0.8797 

-0.1518 

-0.2723 

0.2769 

0.9718 

0.0011 

-0.1223 

0.0927 

Observemos  que  el  factor  rotado  F£  describe  el  comportamiento  de  las  variables  X:i  (PNB), 
X’j  (consumo  de  energia)  y X%  (emision  de  CO2),  asi  que  lo  podemos  interpretar  como  un  in- 
dice  del  grado  de  desarrollo  industrial  del  pals.  Los  resultados  F.)  no  son  razonables,  ya  que  el 
porcentaje  de  mujeres  en  la  poblacion  activa  esta  en  relacion  directa  con  el  grado  de  desarrollo 
de  un  pais,  pero  el  consumo  de  agua  tambien.  El  factor  77  esta  asociado  a la  produccion  de 
electricidad.  Por  ultimo,  F£  describe  el  grado  de  desarrollo  tecnologico  y sanitario  del  pais. 

(b)  Bajo  la  hipotesis  del  modelo  factorial  ortogonal 

X — fj,  = LF  + e , 

con  Var(e)  = 4/,  y dada  una  muestra  xi, . . . , xn  de  valores  observados  de  X,  la  estimacion 
de  los  factores  por  minimos  cuadrados  ponderados  es 

f,:  = (L,'®'”1L)_1L,,S'_1(xJ;  — x),  para  i = 1, . . . , to. 
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Es  habitual  que  los  valores  de  L y 'P  sean  desconocidos.  En  este  caso  se  sustituyen  por 
estimaciones.  Cuando,  por  ejemplo,  la  unidades  de  medida  de  las  X,  sean  muy  distintas, 
como  es  habitual  se  recomienda  trabajar  con  los  datos  estandarizados,  que  es  lo  que  haremos 
para  este  ejercicio.  Para  programarlo  en  Matlab  escribimos 

v = size (X) ; m = mean (X) ; S = cov(X,l);  va  = (diag(S))'; 

data  = (X  - ones (v (1) , 1) *m)  ./  (ones (v ( 1 ) , 1) *va) ; 

R = corrcoef (X) ; 

diferencia  = R - Lvarimax  * Lvarimax'  ; 

Psi  = diag (diag (diferencia)  ) ; 

Scores  = ( inv (Lvarimax' *inv (Psi) *Lvarimax) *Lvarimax' .. . 

*inv(Psi)*  data')' 


PROBLEMA  7.9 


Si  suponemos  que  el  modelo  factorial  ortogonal  X — p = LF  + e con  Var(e)  = VF 
es  vdlido  y que  Fyt  siguen  distribuciones  normales,  entonces  X tambien  sigue  una 
distribucion  normal  y es  posible  estimar  la  matriz  de  cargos  por  el  metodo  de  maxima 
verosimilitud  (vease  Pena  2002,  Johnson  y Wichern  2007). 

Considerese  la  matriz  de  cargos 


/ 

0.9 

0.05 

\ 

0.8 

0.3 

0.2 

0.95 

0.3 

0.9 

V 

0.7 

0.15 

/ 

y la  matriz  de  varianzas  espea'ficas  VP  = diag (0.2, 0.3,  0.1, 0.2, 0.3).  Tomando  //  = 0, 
generese  una  muestra  de  tamaho  n = 1000  de  X y obtengase  la  estimacion  de  maxima 
verosimilitud  de  la  matriz  de  cargos  para  rn  = 2 f adores.  Calculese  la  correspon- 
diente  estimacion  de  la  matriz  de  varianzas  especfficas. 

Indication:  Este  ejercicio  solo  se  puede  resolver  con  la  Statistics  Toolbox  de  Matlab 
7.x,  porque  incorpora  la  fimcion  interna  factoran,  que  calcula  la  estimacion  de 
maxima  verosimilitud  de  las  cargos. 


SOLUCION  ) 

Supondremos  L y \P  ya  introducidas  en  Matlab  como  L y Psi.  El  siguiente  codigo  permite 
resolver  el  ejercicio 

[p,m]  = size(L)  ; 
n = 1000  ; 

RaizPsi  = sqrt(Psi)  ; 

MuestraF  = randn(n,m)  ; 

MuestraEpsilon  = randn (n, p) *RaizPsi  ; 

MuestraX  = MuestraF  * L'  + MuestraEpsilon  ; 

L_est  = factoran (MuestraX, m)  ; 

Psi_est  = diag (diag (cov (MuestraX, 1 ) - L_est*L_est ' ) ) ; 
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Analisis  canonico  de 
poblaciones  (MANOVA) 


El  objetivo  del  analisis  canonico  de  poblaciones,  o analisis  multivariante  de  la  varian- 
za,  es  representar  g grupos  de  individuos  de  forma  optima  a lo  largo  de  unos  ejes 
canonicos  ortogonales,  de  manera  que  la  dispersion  entre  estos  grupos  sea  maxima 
con  relacion  a la  dispersion  dentro  de  los  grupos.  En  esta  representacion,  la  distancia 
euclfdea  entre  dos  individuos  expresados  en  funcion  de  los  nuevos  ejes  canonicos  coin- 
cide con  la  distancia  de  Mahalanobis  entre  estos  individuos  expresados  en  funcion  de 
las  variables  originales. 

Para  poder  aplicar  correctamente  esta  tecnica  del  analisis  multivariante.  previamente 
deben  realizarse  dos  contrastes  de  hipotesis  vistos  en  el  Capitulo  3:  el  contraste  de 
comparacion  de  medias , que  debe  rechazarse,  y el  contraste  de  comparacion  de  co- 
varianzas , que  no  debe  rechazarse.  El  hecho  de  inferir  que  las  medias  son  iguales 
significa  que  no  hay  diferencias  significativas  entre  los  distintos  grupos  y,  por  tanto, 
la  representacion  canonica  se  reduce  a un  solo  punto.  Inferir  que  las  covarianzas  no 
son  iguales  significa  que  los  elipsoides  de  concentracion  de  los  distintos  grupos  estan 
orientados  de  forma  distinta  y,  por  tanto,  no  se  pueden  determinar  unos  ejes  comunes 
de  representacion.  La  hipotesis  de  igualdad  de  covarianzas  raramente  se  cumple  en 
las  aplicaciones.  A pesar  de  ello,  si  los  signos  de  los  elementos  de  las  matrices  de 
covarianzas  muestrales  de  cada  grupo  no  cambian  de  un  grupo  a otro,  la  orientacion 
de  los  elipsoides  no  es  demasiado  distinta  y todavfa  es  posible  realizar  este  analisis. 
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PROBLEMA  8.1 


Considerense  los  datos  de  la  Tabla  3.1.  Sean  mx,  my,  Sy,  Sy  I os  vectores  de 
medias  y matrices  de  covarianzas  correspondientes  a estos  datos,  que  se  calcularon 
en  el  Problema  3.18.  Sabiendo  que  n\  = 21  y ny  = 28, 

(a)  Construycinse  las  matrices  de  dispersion  dentro  de  los  grupos,  W,  y de  disper- 
sion entre  los  grupos,  B. 

(b)  Encuentrese  el  primer  eje  canonico  y estandancese  este  eje  respecto  de  la  ma- 
triz  de  covarianzas  comun. 

(c)  Obtenganse  las  coordenadas  de  los  individuos  medio s enfuncidn  del  primer  eje 
canonico  estandarizado. 

(d)  Compruebese  que  la  distancia  euclidea  entre  los  individuos  medios  expresados 
en  las  coordenadas  candnicas  coincide  con  la  distancia  de  Mahalanobis  entre 
los  individuos  medios  expresados  en  las  variables  originales. 


SOLUCION  ) 


(a)  La  matriz  de  dispersion  dentro  de  los  grupos  es 


W = 71 X Sx  + ny  Sy  = 103 


/ 0.6278 

0.6461 

0.0917 

0.0645 

0.1049  \ 

0.6461 

1.2289 

0.1299 

0.1059 

0.1274 

0.0917 

0.1299 

0.0303 

0.0165 

0.0199 

0.0645 

0.1059 

0.0165 

0.0152 

0.0163 

^ 0.1049 

0.1274 

0.0199 

0.0163 

0.0472  j 

Sea  m el  vector  de  medias  global,  o centroide,  es  decir, 

m = ( nx  my  + ny  m y)/(ny  + ny). 


La  matriz  de  dispersion  entre  los  grupos  es 


B = nx 

(my  — m)  (niy  — m 

[)'  + ny  (my  - m) 

(my  — m 

y 

( 

13.1696 

7.1832 

0.5695 

-0.6738 

0.3746 

\ 

7.1832 

3.9180 

0.3106 

-0.3675 

0.2043 

= 

0.5695 

0.3106 

0.0246 

-0.0291 

0.0162 

-0.6738 

-0.3675 

-0.0291 

0.0345 

-0.0192 

\ 

0.3746 

0.2043 

0.0162 

-0.0192 

0.0107 

) 

La  matriz  de  covarianzas  comun  es 

/ 13.3576 

13.7477 

1.9509 

1.3733 

2.2309  \ 

1 

13.7477 

26.1459 

2.7647 

2.2523 

2.7100 

S = 

— 

w = 

1.9509 

2.7647 

0.6445 

0.3502 

0.4232 

nx  + ny 

- 2 

1.3733 

2.2523 

0.3502 

0.3244 

0.3470 

^ 2.2309 

2.7100 

0.4232 

0.3470 

1.0035  / 
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y los  ejes  canonicos  se  obtienen  a partir  de  la  diagonalizacion  de  B respecto  de  S.  En  este  caso 
obtendremos  solamente  un  eje  canonico,  puesto  que  solo  hay  un  valor  propio  relativo  no  nulo, 
y podemos  utilizar  Matlab  para  ello: 


[V,L]  = eig (B , S ) ; 

diag(L)  = 2.8248  -0.0000  0.0000  -0.0000  0.0000 

V ( : , 1 ) ' = -0.3201  -0.0546  -0.1924  2.1298  0.1426 


Si  llamamos  v a este  eje  canonico,  puede  comprobarse  que  ya  esta  estandarizado  respecto  de 
S,  es  decir  que 

v'Sv=  1 . 

(c)  Las  coordenadas  de  los  individuos  medios  en  funcion  del  primer  eje  canonico  estandari- 
zado son 

m.Y  = mV  v = —27.2238,  my  = m.'Y  v = —27.7090. 

(d)  La  distancia  de  Mahalanobis  entre  los  individuos  medios  es 

(mx  — my)'  S-1  (my  — my)  = 0.2354, 

y la  distancia  euclfdea  entre  los  individuos  medios  en  funcion  de  las  coordenadas  canonicas  es 

(m.Y  — my)2  = 0.2354  . 


PROBLEMA  8.2 


La  Tabla  8.1  contiene  cuatro  variables  numericas: 

X | =longitud  del  sepalo, 

X2  =anchura  del  sepalo, 

Xj  =longitud  del  petalo, 

X4  =anchura  del  petalo, 

medidas  sobre  tres  especies  de  flores  del  genero  Iris:  Iris  setosa,  Iris  versicolor  e Iris 
virginica  (Fuente:  Fisher  1936). 

(a)  ReaUcese  la  representacion  canonica  de  las  tres  especies,  especificando  los  por- 
centajes  de  variabilidad  explicados  por  cada  eje  canonico. 

(b)  Suponiendo  normalidad  multivariante,  construyanse  las  regiones  confidenciales 
para  los  individuos  medios  de  cada  grupo. 


www.FreeLibros.me 


146 


PROBLEMAS  RESUELTOS  DE  ESTADISTICA  MULTIVARIANTE 


Tabla  8.1. 

Datos  del  Problema  8.2  (Fuente:  Fisher  1936) 


X! 

x2 

X3 

x4 

-Yi 

A'2 

*3 

x4 

Xi 

x2 

X3 

x4 

5.1 

3.5 

1.4 

0.2 

7.0 

3.2 

4.7 

1.4 

6.3 

3.3 

6.0 

2.5 

4.9 

3.0 

1.4 

0.2 

6.4 

3.2 

4.5 

1.5 

5.8 

2.7 

5.1 

1.9 

4.7 

3.2 

1.3 

0.2 

6.9 

3.1 

4.9 

1.5 

7.1 

3.0 

5.9 

2.1 

4.6 

3.1 

1.5 

0.2 

5.5 

2.3 

4.0 

1.3 

6.3 

2.9 

5.6 

1.8 

5.0 

3.6 

1.4 

0.2 

6.5 

2.8 

4.6 

1.5 

6.5 

3.0 

5.8 

2.2 

5.4 

3.9 

1.7 

0.4 

5.7 

2.8 

4.5 

1.3 

7.6 

3.0 

6.6 

2.1 

4.6 

3.4 

1.4 

0.3 

6.3 

3.3 

4.7 

1.6 

4.9 

2.5 

4.5 

1.7 

5.0 

3.4 

1.5 

0.2 

4.9 

2.4 

3.3 

1.0 

7.3 

2.9 

6.3 

1.8 

4.4 

2.9 

1.4 

0.2 

6.6 

2.9 

4.6 

1.3 

6.7 

2.5 

5.8 

1.8 

4.9 

3.1 

1.5 

0.1 

5.2 

2.7 

3.9 

1.4 

7.2 

3.6 

6.1 

2.5 

5.4 

3.7 

1.5 

0.2 

5.0 

2.0 

3.5 

1.0 

6.5 

3.2 

5.1 

2.0 

4.8 

3.4 

1.6 

0.2 

5.9 

3.0 

4.2 

1.5 

6.4 

2.7 

5.3 

1.9 

4.8 

3.0 

1.4 

0.1 

6.0 

2.2 

4.0 

1.0 

6.8 

3.0 

5.5 

2.1 

4.3 

3.0 

1.1 

0.1 

6.1 

2.9 

4.7 

1.4 

5.7 

2.5 

5.0 

2.0 

5.8 

4.0 

1.2 

0.2 

5.6 

2.9 

3.6 

1.3 

5.8 

2.8 

5.1 

2.4 

5.7 

4.4 

1.5 

0.4 

6.7 

3.1 

4.4 

1.4 

6.4 

3.2 

5.3 

2.3 

5.4 

3.9 

1.3 

0.4 

5.6 

3.0 

4.5 

1.5 

6.5 

3.0 

5.5 

1.8 

5.1 

3.5 

1.4 

0.3 

5.8 

2.7 

4.1 

1.0 

7.7 

3.8 

6.7 

2.2 

5.7 

3.8 

1.7 

0.3 

6.2 

2.2 

4.5 

1.5 

7.7 

2.6 

6.9 

2.3 

5.1 

3.8 

1.5 

0.3 

5.6 

2.5 

3.9 

1.1 

6.0 

2.2 

5.0 

1.5 

5.4 

3.4 

1.7 

0.2 

5.9 

3.2 

4.8 

1.8 

6.9 

3.2 

5.7 

2.3 

5.1 

3.7 

1.5 

0.4 

6.1 

2.8 

4.0 

1.3 

5.6 

2.8 

4.9 

2.0 

4.6 

3.6 

1.0 

0.2 

6.3 

2.5 

4.9 

1.5 

7.7 

2.8 

6.7 

2.0 

5.1 

3.3 

1.7 

0.5 

6.1 

2.8 

4.7 

1.2 

6.3 

2.7 

4.9 

1.8 

4.8 

3.4 

1.9 

0.2 

6.4 

2.9 

4.3 

1.3 

6.7 

3.3 

5.7 

2.1 

5.0 

3.0 

1.6 

0.2 

6.6 

3.0 

4.4 

1.4 

7.2 

3.2 

6.0 

1.8 

5.0 

3.4 

1.6 

0.4 

6.8 

2.8 

4.8 

1.4 

6.2 

2.8 

4.8 

1.8 

5.2 

3.5 

1.5 

0.2 

6.7 

3.0 

5.0 

1.7 

6.1 

3.0 

4.9 

1.8 

5.2 

3.4 

1.4 

0.2 

6.0 

2.9 

4.5 

1.5 

6.4 

2.8 

5.6 

2.1 

4.7 

3.2 

1.6 

0.2 

5.7 

2.6 

3.5 

1.0 

7.2 

3.0 

5.8 

1.6 

4.8 

3.1 

1.6 

0.2 

5.5 

2.4 

3.8 

1.1 

7.4 

2.8 

6.1 

1.9 

5.4 

3.4 

1.5 

0.4 

5.5 

2.4 

3.7 

1.0 

7.9 

3.8 

6.4 

2.0 

5.2 

4.1 

1.5 

0.1 

5.8 

2.7 

3.9 

1.2 

6.4 

2.8 

5.6 

2.2 

5.5 

4.2 

1.4 

0.2 

6.0 

2.7 

5.1 

1.6 

6.3 

2.8 

5.1 

1.5 

4.9 

3.1 

1.5 

0.2 

5.4 

3.0 

4.5 

1.5 

6.1 

2.6 

5.6 

1.4 

5.0 

3.2 

1.2 

0.2 

6.0 

3.4 

4.5 

1.6 

7.7 

3.0 

6.1 

2.3 

5.5 

3.5 

1.3 

0.2 

6.7 

3.1 

4.7 

1.5 

6.3 

3.4 

5.6 

2.4 

4.9 

3.6 

1.4 

0.1 

6.3 

2.3 

4.4 

1.3 

6.4 

3.1 

5.5 

1.8 

4.4 

3.0 

1.3 

0.2 

5.6 

3.0 

4.1 

1.3 

6.0 

3.0 

4.8 

1.8 

5.1 

3.4 

1.5 

0.2 

5.5 

2.5 

4.0 

1.3 

6.9 

3.1 

5.4 

2.1 

5.0 

3.5 

1.3 

0.3 

5.5 

2.6 

4.4 

1.2 

6.7 

3.1 

5.6 

2.4 

4.5 

2.3 

1.3 

0.3 

6.1 

3.0 

4.6 

1.4 

6.9 

3.1 

5.1 

2.3 

4.4 

3.2 

1.3 

0.2 

5.8 

2.6 

4.0 

1.2 

5.8 

2.7 

5.1 

1.9 

5.0 

3.5 

1.6 

0.6 

5.0 

2.3 

3.3 

1.0 

6.8 

3.2 

5.9 

2.3 

5.1 

3.8 

1.9 

0.4 

5.6 

2.7 

4.2 

1.3 

6.7 

3.3 

5.7 

2.5 

4.8 

3.0 

1.4 

0.3 

5.7 

3.0 

4.2 

1.2 

6.7 

3.0 

5.2 

2.3 

5.1 

3.8 

1.6 

0.2 

5.7 

2.9 

4.2 

1.3 

6.3 

2.5 

5.0 

1.9 

4.6 

3.2 

1.4 

0.2 

6.2 

2.9 

4.3 

1.3 

6.5 

3.0 

5.2 

2.0 

5.3 

3.7 

1.5 

0.2 

5.1 

2.5 

3.0 

1.1 

6.2 

3.4 

5.4 

2.3 

5.0 

3.3 

1.4 

0.2 

5.7 

2.8 

4.1 

1.3 

5.9 

3.0 

5.1 

1.8 

SOLUCION  ) 


Para  resolver  este  problema  utilizaremos  las  funciones  canp  . m,  que  permite  obtener  la  re- 
presentation de  g grupos  de  individuos  en  unos  ejes  canonicos,  y regconf  . m,  que  permite 
obtener  regiones  confidenciales  al  (1  — a)  100%  para  los  individuos  medios  de  cada  grupo, 
suponiendo  normalidad  multivariante. 

% CANP 

% La  funcion  [mY, V, B, W,percent , Testl,  textol , Test2  , texto2]  =canp  (X,n) 

% realiza  el  analisis  canonico  de  g poblaciones,  es  decir, 

% representa  las  g poblaciones  de  forma  optima  a lo  largo  de 
% unos  ejes  canonicos  ortogonales . 

% Para  cada  poblacion  i (i=l , 2 , . . . , g)  se  tienen  las  medidas  de 
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£ p variables  Xl,X2,...,Xp  sobre  n(i)  individuos, 

% con  n(l) +n(2) +. . .+n(g) =N. 

% Entradas : 

% X:  es  una  matriz  (N,p)  que  contiene  las  observaciones  de  p 
% variables  (en  columna)  sobre  los  individuos  de  g poblaciones 
% (en  fila) , 

% n:  es  un  vector  que  contiene  el  numero  de  individuos  de  cada 
% poblacion. 

% Salidas: 

% mY : matriz  que  contiene  las  nuevas  coordenadas  de  los 
% individuos  medios  (en  fila) , 

% V:  matriz  de  vectores  propios  de  B respecto  de  W (en  columna) , 

% es  decir,  las  columnas  de  V definen  los  ejes  canonicos, 

% B:  matriz  de  dispersion  entre  poblaciones  (between), 

% W:  matriz  de  dispersion  dentro  de  cada  poblacion  (within), 

% percent:  porcentaje  de  variabilidad  explicado, 

% Testl:  vector  que  contiene  el  valor  de  la  F de  Fisher,  sus 
% grados  de  libertad  y el  p-valor  [F(nl,n2)  nl  n2  p_valorl] 

% obtenidos  en  el  test  de  comparacion  de  medias, 

% textol : texto  resumen  del  resultado  de  Testl, 

% Test2 : vector  que  contiene  el  valor  de  la  chi-cuadrado,  sus 
% grados  de  libertad  y el  p-valor  [chi (q)  q p_valor2] 

% obtenidos  en  el  test  de  comparacion  de  covarianzas, 

% texto2 : texto  resumen  del  resultado  de  Test2 . 

function  [mY, V, B, W, percent , Testl , textol , Test2 , texto2] =canp (X, n) 
[N,  p]  = size  (X)  ,* 
g = length (n); 

% vector  de  etiquetas  para  las  poblaciones 
for  i = l:g 

lab(i,:)  = sprint f ( ' %3g' , i ) ; 
end 

nO  (1)  = n ( 1 ) ,* 
for  i = 2 : g 

nO(i)  = nO (i-1) +n (i) ; 
end 

% calculo  de  los  individuos  medios 


mX(l, : ) = ones (1, n (1) ) *X (1 :n0 (1) , : ) /n (1) ; 
for  i = 2 : g 

mX(i,:)  = ones (1, n (i) ) *X (nO (i-1) +1 :n0 (i) ,:) /n (i) ; 
end 


% calculo  de  la  matriz  de  dispersion  dentro  de  cada  poblacion 

HI  = eye (n (1) ) -ones (n (1) ) /n  (1) ; 

W = X (1 :n0 (1) , : ) 7 *H1*X (1 :n0 (1) , : ) ; 
logHl  = n (1) *log (det (W/n (1) ) ) ; 
for  i = 2 : g 

Hi  = eye (n (i) ) -ones (n (i) ) /n (i) ; 

Ci  = X (nO (i-1) +1 :n0 (i) , : ) 7 *Hi*X (nO (i-1) +1 :n0 (i) , : ) ; 

W = W+Ci; 

logHl  = logHl+n (i ) *log (det (Ci/n (i ) ) ) ; 
end 

S = W/ (N-g) ; 
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% calculo  de  la  matriz  de  dispersion  entre  poblaciones 

mmXO  = n (1) *mX (1, : ) ; 
for  i = 2 : g 

mmX  = mmXO  +n ( i ) *mX ( i , : ) ; 
mmXO  = mmX; 

end 

mmX  = mmX/N; 

BO  = n (1) * (mX (1 , : ) -mmX) ' * (mX (1 , : ) -mmX) ; 
for  i = 2 : g 

B = BO+n  (i)  * (mX  (i , : ) -mmX)  ' * (mX  (i , : ) -mmX)  ; 

BO  = B; 

end 

% Test  de  comparacion  de  medias  (Lambda  de  Wilks) . 

% Conviene  rechazar  esta  hipotesis. 

lambda  = det (W) /det (W+B) ; 

[Fmit,nl,n2]  = wilkstof (lambda, p, N-g,g-l) ; 
p_valorl  = 1-f cdf (Fmit , nl , n2 ) ; 

Testl  = [Fmit  nl  n2  p_valorl] ; 

textol  = char ('Testl:  Igualdad  de  medias  (Lambda  de  Wilks) : ... 

p - valor =' , num2str (p_valorl) ) ; 

% Test  de  comparacion  de  covarianzas  (Razon  de  verosimilitudes 
% sin  la  correcion  de  Box) . Conviene  aceptar  esta  hipotesis. 

logHO  = N*log (det (W/N) ) ; 
chi  = logHO -logHl; 
q = (g-1) *p*  (p+1) / 2 ; 
p_valor2  = l-chi2cdf (chi , q) ; 

Test2  = [chi  q p_valor2] ; 

texto2  = char('Test2:  Igualdad  de  covarianzas  (test  de  Bartlett) : ... 

p-valor=' , num2str (p_valor2 ) ) ; 

% calculo  de  los  ejes  canonicos 

[V,D]  = eig (B,S) ; 

[z,i]  = sort ( -diag (real (D) )) ; 
d = - z ; 

V = real (V ( : , i) ) ; 
m = min (g-1 , p) ; 

V = V(  : , 1 :m)  ; 

% estandarizacion  de  los  ejes  canonicos  V'*S*V=Id. 

V = V*inv (diag (sqrt (diag (V' *S*V) ))) ; 

% variablidad  explicada 
for  i = l:m 

percent (i)  = d (i) /sum (d) *100 ; 
acum(i)  = sum (percent (1 : i) ) ; 
end 

% primeras  dos  coordenadas  de  los  individuos 
% y de  los  individuos  medios  en  los  nuevos  ejes 

V = X*V ( : , 1 : 2 ) ; 
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mY  = mX*V ( : ,1:2) ; 

% representacion  de  los  individuos  y de  los  individuos  medios 
if  m>=2 

plot (Y(:,l),Y(:,2),'.b', ' Markers ize' ,15) 
hold  on 

plot (mY ( : , 1) , mY ( : , 2 ) , ' Ar ' , ' MarkerFaceColor ' , [1  0 0]  ) 
grid 

xlabel('ler.  eje  canonico' , ' FontSize' , 10) 
ylabel('2o.  eje  canonico' , ' FontSize' , 10) 

title ( [ ' Coordenadas  canonicas  ( ' , num2str (acum {2) ),'%)' \ , 1 FontSize ' , 12 ) 
for  i = l:g 

text (mY ( i , 1 ) , mY ( i , 2 ) , lab ( i , : ) ) ; 

end 

end 


% REGCONF 


% La  funcion  r=regconf (mY, n, p, conf ) dibuja  las  regiones 
% conf idenciales  para  los  individuos  medios  de  g poblaciones 
% obtenidos  a traves  de  la  funcion  CANP. 

% En  cada  poblacion  se  miden  p variables  sobre  n(i)  individuos 
% (i=l , 2 , . . . , g)  con  n(l) +n(2) +. . .+n(g) =N. 


% Entradas : 

% mY  = las  coordenadas  canonicas  de  los  individuos  medios, 
% n = vector  columna  que  contiene  el  numero  de  individuos 
% de  cada  poblacion, 

% p = numero  de  variables  medidas  sobre  cada  poblacion, 

% conf  = nivel  de  confianza  (0<=conf<=l)  para  el  que 

% se  construyen  las  regiones  conf idenciales 

% (por  ejemplo,  conf=0.90). 


% Salidas: 

% r = vector  que  contiene  los  radios  de  las  esferas. 


function  r = regconf (mY, n, p, conf ) 
g = length (n); 

N = sum  (n)  ,* 

% valor  critico  de  una  F(p,N-g-p+l)  para  el  nivel  de 
% confianza  (conf)  especif icado . 

F = finv(conf ,p,N-g-p+l) ; 


% calculo  de  las  regiones  conf idenciales  (al  conf*100%) 
% para  los  individuos  medios . 

for  i = l:g 

r (i)  = sqrt (F*p* (N-g) / ( (N-g-p+1) *n(i) ) ) ; 
end 

for  i = 0:0.01:2*pi 

theta (floor (i*100+l) ) = i; 
end 


% vector  de  etiquetas  para  los  individuos  medios 
for  i = l:g 
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lab(i,:)  = sprintf ( ' %3g' , i) ; 
end 

hold  on 

plot (mY ( : , 1) , mY ( : , 2 ) , ' Ar ' , ' MarkerFaceColor ' , [1  0 0]  ) 
xlabel('ler.  eje  canonico' FontSize 10 ) 
ylabel(/2o.  eje  canonico, , ' FontSize ' , 10 ) 

for  i = l:g 

for  j = 1 : length (theta) 

cercle (j,l)  = mY (i , 1) +cos (theta (j )) *r (i) ; 
cercle(j,2)  = mY (i , 2 ) +sin (theta ( j ) ) *r (i) ; 

end 

plot (cercle ( : , 1) , cercle ( : , 2) , ' . m' , 'MarkerSize' , 4) 
end 

pconf  = conf*100; 

title ([' Regiones  conf idenciales  para  los  individuos  medios  al  ' , ... 

num2str (pconf) , ' % ' ] , ' FontSize' , 12 ) 

for  i = l:g 

text (mY ( i , 1 ) , mY ( i , 2 ) , lab ( i , :) ) ; 
end 

hold  off 


(a)  Para  poder  utilizar  la  funcion  canp  . m debemos  escribir  los  datos  de  la  Tabla  8.1  en  una 
matriz  X=  [XI ; X2  ; X3  ] de  dimension  N x p,  donde  p es  el  ntimero  de  variables  observadas, 
y N es  e\  numero  total  de  individuos.  En  este  caso  p = 4 y N = 150.  Las  matrices  XI,  X2  y 
X3  contienen  a los  individuos  de  cada  uno  de  los  tres  grupos.  Debemos  introducir  tambien  un 
vector  n=  [nl  n2  n3  ] que  contenga  el  ntimero  de  individuos  de  cada  grupo.  Consideramos 
como  grupo  1 a la  especie  Iris  setosa,  como  grupo  2 a la  especie  Iris  versicolor  y como  grupo 
3 a la  especie  Iris  virginica. 

n = [50  50  50]  ; 

[mY, V, B , W, percent , Testl , textol , Test2 , texto2]  = canp(X,n) 

La  matriz  mY  contiene  las  coordenadas  de  los  individuos  medios  en  funcion  de  los  nuevos 
ejes  canonicos.  Las  columnas  de  la  matriz  V son  los  coeficientes  que  definen  los  nuevos  ejes 
canonicos.  By  W son  las  matrices  de  disperson  entre  grupos  ( between ) y de  dispersion  dentro 
de  los  grupos  {within),  respectivamente.  El  vector  percent  contiene  el  porcentaje  de  va- 
riabilidad  explicado  por  cada  uno  de  los  ejes.  Puesto  que  el  ntimero  de  ejes  canonicos  es 
min(<7  — 1 ,p),  donde  g es  el  ntimero  de  grupos,  en  este  caso  la  representation  en  dimension  2 
expresa  el  100%  de  la  variabilidad  explicada.  Testl  y textol  contienen  los  resultados  del 
contraste  de  igualdad  de  medias  basado  en  el  estadfstico  Lambda  de  Wilks: 

percent  = 99.1213  0.8787 

Testl=  199.1453  8.0000  288.0000  0 

textol  = Testl:  Igualdad  de  medias  (Lambda  de  Wilks) : p-valor=0 

El  primer  eje  canonico  explica  el  99.1213%  de  la  variabilidad,  mientras  que  el  segundo  eje 
explica  solamente  el  0.8787%.  Para  el  contraste  de  comparacion  de  medias  se  obtiene  una 
F( 8,  288)  = 199.1453,  con  un  p-valor  asociado  de  0.  Por  tanto  se  rechaza  la  hipotesis  nula  de 
igualdad  de  medias.  La  Ligura  8.1  muestra  la  representation  canonica  de  las  tres  especies  del 
genero  Iris,  con  un  porcentaje  de  variabilidad  explicado  del  100%. 
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Coordenadas  canonicas  (1 00%) 


£ 


J. 

•>* 


;•*  . 


• * • : 


A* 

V3# 


3 

•••! 


0 2 4 

ler.  eje  canonico 


1 . Iris  setosa  2.  Iris  virginica  3.  Iris  versicolor 


Figura  8.1. 

Analisis  canonico  de  poblaciones.  (Problema  8.2.) 


(b)  Bajo  el  supuesto  de  normalidad  multivariante,  las  regiones  confidenciales  son  esferas 
multidimensionales  centradas  en  los  individuos  medios.  En  el  caso  de  la  representacion  en  dos 
dimensiones,  se  trata  de  cfrculos  de  radio 


n = 


(N  - g)  p 

{N  -g-p+l)m' 


para  * = 1,2,...,  g, 


donde  Fa  es  el  percentil  (1  — a)  100%  de  la  ley  F de  Fisher  con  py  N — g — p + 1 grados 
de  libertad,  p es  el  numero  de  variables  observadas,  g es  el  numero  de  grupos,  N es  el  numero 
total  de  individuos  y n,  es  el  numero  de  individuos  en  el  grupo  v'-esimo.  Para  representar  las 
regiones  confidenciales  al  (1  — a)  100%  para  los  individuos  medios  utilizaremos  la  funcion 
regconf  . m.  Por  ejemplo,  para  un  nivel  de  confianza  del  90%,  obtenemos: 


r = regconf (mY, n, 4 , 0 . 90 ) 
r = 0.4026  0.4026  0.4026 


La  coincidencia  de  los  tres  radios  se  debe  a que  los  tres  grupos  tienen  el  mismo  numero  de 
individuos.  La  Figura  8.2  muestra  la  representacion  canonica  de  las  tres  especies  del  genero 
Iris  junto  con  las  regiones  confidenciales  para  los  individuos  medios.  A veces,  cuando  el 
numero  de  individuos  es  muy  grande  o tambien  cuando  el  numero  de  grupos  es  considerable, 
suele  realizarse  solamente  una  representacion  de  los  individuos  medios  juntamente  con  las 
regiones  confidenciales. 
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-8  -6  -4  -2 


0 2 4 6 

1 er.  eje  canonico 


8 10  12 


1.  Irissetosa  2.  Iris  virginica  3.  Iris  versicolor 


Figura  8.2. 

Regiones  confidenciales  al  90%  (Problema  8.2) 


PROBLEMA  8.3 


La  Tabla  8.2  contiene  cuatro  medidas  sobre  crdneos  de  varones  egipcios  de  cinco  pe- 
riodos  histdricos  distintos  (Grupo  1:  4000  aC,  Grupo  2:  3300  aC,  Grupo  3:  1850  aC, 
Grupo  4:  200  aC,  Grupo  5:  150  dC).  Para  cada  perfodo  temporal  se  midieron  30 
crdneos.  Las  variables  observadas  son:  X\  =anchura  maxima,  X2  =altura  basi- 
bregmdtica,  X:>  =longitud  basialveolar,  X4  =longitud  de  la  nariz.  Estos  datos  estdn 
accesibles  en  la  pdgina  web  DASL  Project  (vease  Hutcheson  y Meyer  1996). 

(a)  ReaUcese  la  representation  canonica  de  los  cinco  grupos,  especificando  los 
porcentajes  de  variabilidad  explicados  por  los  ejes  canonicos. 

(b)  Representense  las  regiones  confidenciales  para  un  nivel  de  confianza  del  90%. 

(c)  Interpretese  el  primer  eje  canonico. 

(d)  Obtengase  la  matriz  de  distancias  entre  los  cinco  grupos. 


SOLUCION  ) 


(a)  Sea  X=  [XI ; X2  ; X3  ; X4  ; X5  ] la  matriz  150  x 4 que  contiene  los  datos  de  la  Tabla  8.2. 
Realizaremos  el  analisis  canonico  de  poblaciones  mediante  la  funcion  canp  . m: 

n = [30  30  30  30  30]  ; 

[mY, V, B , W, percent , Testl , textol , Test2 , texto2]  = canp(X,n) 
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Tabla  8.2. 

Datos  del  Problema  8.3  (http://lib.stat.cmu.edu/DASL/Datafiles/EgyptianSkulls.html) 


4000  a.C.  3300  a.C.  1850  a.C.  200  a.C.  150  d.C. 


Xi 

*2 

x3 

x4 

x2 

*3 

x4 

X! 

X2 

*3 

x4 

Xi 

X2 

^3 

X4 

Xi 

V2 

^3 

X4 

131 

138 

89 

49 

124 

138 

101 

48 

137 

141 

96 

52 

137 

134 

107 

54 

137 

123 

91 

50 

125 

131 

92 

48 

133 

134 

97 

48 

129 

133 

93 

47 

141 

128 

95 

53 

136 

131 

95 

49 

131 

132 

99 

50 

138 

134 

98 

45 

132 

138 

87 

48 

141 

130 

87 

49 

128 

126 

91 

57 

119 

132 

96 

44 

148 

129 

104 

51 

130 

134 

106 

50 

135 

131 

99 

51 

130 

134 

92 

52 

136 

143 

100 

54 

126 

124 

95 

45 

134 

134 

96 

45 

133 

120 

91 

46 

138 

127 

86 

47 

138 

137 

89 

56 

135 

136 

98 

52 

140 

133 

98 

50 

131 

135 

90 

50 

126 

138 

101 

52 

139 

130 

108 

48 

132 

145 

100 

54 

138 

138 

95 

47 

140 

137 

94 

60 

136 

138 

97 

58 

125 

136 

93 

48 

133 

130 

102 

48 

136 

145 

99 

55 

139 

130 

90 

48 

126 

126 

92 

45 

131 

134 

102 

51 

131 

134 

96 

50 

136 

131 

92 

46 

140 

134 

90 

51 

132 

132 

99 

55 

134 

134 

99 

51 

133 

125 

94 

46 
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53 

129 

142 
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47 
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99 

55 
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135 

96 

52 

131 
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97 

54 

131 
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98 

45 
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138 

102 

55 

134 

137 

93 

52 

139 

134 

95 

47 

135 

137 

103 

50 

138 

129 

107 

53 

129 

135 

92 

50 

131 

141 

99 

55 

138 

125 

99 

51 

132 

133 

93 

53 

123 

131 

101 

51 

134 

125 

90 

60 

129 

135 

95 

47 

137 

135 

96 

54 

139 

136 

96 

50 

130 

129 

105 

47 

138 

134 

96 

51 

136 

128 

93 

54 

133 

125 

92 

50 

132 

131 

101 

49 

134 

130 

93 

54 

136 

135 

94 

53 

131 

125 

88 

48 

145 

129 

89 

47 

126 

133 

102 

51 

137 

136 

106 

49 

132 

130 

91 

52 

139 

130 

94 

53 

138 

136 

92 

46 
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135 

103 

47 

126 

131 

100 

48 

133 

131 

100 

50 

144 

124 

86 

50 

131 

129 

97 

44 

134 

124 

93 

53 

135 

136 

97 

52 

138 

137 

94 

51 

141 

131 

97 

53 

143 

126 

88 

54 

128 

134 

103 

50 

129 

126 

91 

50 

130 

127 

99 

45 

130 

131 

98 

53 

134 

124 

91 

55 

130 

130 
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49 

134 

139 

101 

49 

136 
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91 

49 

133 

128 

92 

51 

132 

127 

97 

52 

138 

135 

100 

55 

131 

134 

90 

53 

134 

123 

95 

52 
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126 

97 

54 

137 

125 

85 

57 

128 

132 

93 

53 

132 

130 

104 

50 

136 

137 

101 

54 

131 

142 

95 

53 

129 

128 

81 

52 

127 

129 

106 

48 

130 

132 

93 

52 

133 

131 

96 

49 

136 

138 

94 

55 

140 

135 

103 

48 

131 

136 

114 

54 

135 

132 

98 

54 

138 

133 

100 

55 

132 

136 

92 

52 

147 

129 

87 

48 

124 

138 

101 

46 

130 

128 

101 

51 

138 

133 

91 

46 

135 

130 

100 

51 

136 

133 

97 

51 

El  vector  percent  contiene  los  porcentajes  de  variabilidad  explicados  por  los  4 ejes  cano- 

nicos.  Se  rechaza  la  comparacion  de  medias  con  un  p-valor  menor  que  10  y no  se  rechaza 

la  igualdad  de  covarianzas,  puesto  que  el  p-valor  asociado  es  de  0.12905.  Estos  resultados 
confirman  que  el  analisis  canonico  de  poblaciones  es  aplicable  para  este  conjunto  de  datos. 

percent  = 88.2272  8.0941  3.2594  0.4193 

Testl  = 3.8968  16.0000  434.0000  0.0000 

textol  = Testl:  Igualdad  de  medias  (Lambda  de  Wilks):  p-valor=7 . 1776e- 007 
Test2  = 50.2206  40.0000  0.1291 

texto2  = Test2 : Igualdad  de  covarianzas  (test  Bartlett):  p-valor=0 . 12905 

La  Figura  8.3  muestra  la  representation  canonica  de  los  individuos  en  dos  dimensiones  con  un 
96.32%  de  la  variabilidad  explicada. 

(b)  Para  representar  las  regiones  confidenciales  utilizaremos  la  funcion  regconf  . m: 
r = regconf (mY, n, 4 , 0 . 90 ) 

r = 0.5198  0.5198  0.5198  0.5198  0.5198 

La  Figura  8.4  contiene  la  representation  canonica  de  los  individuos  junto  con  las  regiones 
confidenciales  para  los  individuos  medios. 

(c)  Los  ejes  canonicos  son  las  columnas  de  la  matriz  V,  de  manera  que  las  coordenadas  cano- 
nicas  son  combinaciones  lineales  de  las  variables  originales,  es  decir,  si  Y es  la  representation 
de  los  individuos  en  las  nuevas  coordenadas,  Y=XV.  Asf,  el  primer  eje  canonico  es 

Yi  = 0.1267  X\  - 0.0370  X2  - 0.1451  X3  + 0.0829  X4. 


www.FreeLibros.me 


154 


PROBLEMAS  RESUELTOS  DE  ESTADISTICA  MULTIVARIANTE 


25  r 

24.5  - 
24  - 

23.5  - 
o 

0 

1 23 

o 22.5  - 

CD 

oT 

d 22 ' 

(M 

21.5  - 
21  - 

20.5  - 


20  L 
-1 


Coordenadas  canonicas  (96.3213%) 


; v 


r • ••  • 

f/A  4 , 

■*..  A.  * 


• • • 9 


2 3 

1 er.  eje  canonico 


1. 4000  aC,  2.  3300  aC,  3. 1850  aC,  4.  200  aC,  5.  150  dC 


Figura  8.3. 

Analisis  canonico  de  poblaciones  (Problema  8.3) 
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Figura  8.4. 

Regiones  confidenciales  al  90%  (Problema  8.3) 


En  las  Figuras  8.3  y 8.4  puede  observarse  la  ordenacion  temporal  de  los  cinco  perfodos  histo- 
ricos  a lo  largo  del  primer  eje  canonico.  Por  tanto,  este  primer  eje  puede  interpretarse  como  la 
evolucion  del  craneo  a lo  largo  de  la  historia,  con  una  tendencia  hacia  craneos  mas  anchos  y 
algo  achatados,  con  mandfbulas  pequenas  y narices  relativamente  largas. 
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(d)  La  matriz  de  distancias  entre  los  cinco  grupos  puede  obtenerse  a partir  de  las  distancias 
euclfdeas  entre  las  filas  de  la  matriz  mY,  que  contiene  las  coordenadas  de  los  individuos  medios 
en  funcion  de  las  coordenadas  canonicas: 

squaref orm (pdist (mY) ) = 0 0.1920  0.9216  1.3660  1.6303 

0.1920  0 0.8507  1.2317  1.4719 

0.9216  0.8507  0 0.5913  0.9535 

1.3660  1.2317  0.5913  0 0.3736 

1.6303  1.4719  0.9535  0.3736  0 

Podeis  comparar  los  elementos  de  esta  matriz  con  la  representacion  canonica  de  los  indivi- 
duos medios  que  se  muestra  en  la  Figura  8.5.  Recordad  que  las  distancias  representadas  en 
la  Figura  8.5  coinciden  con  las  distancias  de  Mahalanobis  entre  los  individuos  medios  en  fun- 
cion de  las  variables  originales.  Por  tanto,  para  estudiar  posibles  relaciones  entre  los  distintos 
grupos  sera  mas  comodo  observar  el  grafico  de  la  representacion  canonica  que  la  matriz  de 
distancias  de  Mahalanobis. 

Regiones  confidenciales  para  los  individuos  medios  al  90% 


Figura  8.5. 

Representacion  de  las  distancias  entre  los  individuos  medios  (Problema  8.3) 


PROBLEMA  8.4 


Las  Tablas  8.3,  8.4  y 8.5  contienen  varias  variables  medidas  sobre  250  olmos,  dividi- 
dos  en  3 grupos,  segiin  su  sexo  (Grupo  1:  100  olmos  femeninos,  Grupo  2:  100  olmos 
masculinos,  Grupo  3:  50  olmos  juveniles  o pldntulas).  Vease  el  Problema  4.5  para 
una  descripcidn  completa  de  las  variables. 

(a)  Realicese  la  representacion  canonica  de  los  tres  grupos,  especificando  los  por- 
centajes  de  variabilidad  explicados  por  cada  eje  canonico. 

(b)  Suponiendo  normalidad  multivariante,  construyanse  las  regiones  confidenciales 
(al  95%)  para  los  individuos  medios  de  cada  grupo. 

(c)  Interpretense  los  ejes  canonicos. 
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Tabla  8.3. 

Datos  para  el  Problema  8.4.  Grupo  1:  olmos  femeninos. 


A'i 

A2 

a-3 

A4 

As 

A'e 

X7 

Ai 

a2 

a3 

A4 

As 

A'e 

A 7 

0.53 

0.42 

0.135 

0.677 

0.2565 

0.1415 

0.21 

0.53 

0.415 

0.115 

0.5915 

0.233 

0.1585 

0.18 

0.53 

0.415 

0.15 

0.7775 

0.237 

0.1415 

0.33 

0.49 

0.375 

0.135 

0.6125 

0.2555 

0.102 

0.22 

0.545 

0.425 

0.125 

0.768 

0.294 

0.1495 

0.26 

0.56 

0.43 

0.15 

0.8825 

0.3465 

0.172 

0.31 

0.55 

0.44 

0.15 

0.8945 

0.3145 

0.151 

0.32 

0.47 

0.365 

0.105 

0.4205 

0.163 

0.1035 

0.14 

0.525 

0.38 

0.14 

0.6065 

0.194 

0.1475 

0.21 

0.515 

0.425 

0.14 

0.766 

0.304 

0.1725 

0.255 

0.535 

0.405 

0.145 

0.6845 

0.2725 

0.171 

0.205 

0.44 

0.35 

0.125 

0.4035 

0.175 

0.063 

0.129 

0.47 

0.355 

0.1 

0.4755 

0.1675 

0.0805 

0.185 

0.325 

0.26 

0.09 

0.1915 

0.085 

0.036 

0.062 

0.44 

0.34 

0.1 

0.451 

0.188 

0.087 

0.13 

0.425 

0.33 

0.115 

0.406 

0.1635 

0.081 

0.1355 

0.565 

0.44 

0.155 

0.9395 

0.4275 

0.214 

0.27 

0.305 

0.23 

0.08 

0.156 

0.0675 

0.0345 

0.048 

0.55 

0.415 

0.135 

0.7635 

0.318 

0.21 

0.2 

0.405 

0.325 

0.11 

0.3555 

0.151 

0.063 

0.117 

0.615 

0.48 

0.165 

1.1615 

0.513 

0.301 

0.305 

0.565 

0.445 

0.155 

0.826 

0.341 

0.2055 

0.2475 

0.56 

0.44 

0.14 

0.9285 

0.3825 

0.188 

0.3 

0.55 

0.45 

0.145 

0.741 

0.295 

0.1435 

0.2665 

0.58 

0.45 

0.185 

0.9955 

0.3945 

0.272 

0.285 

0.49 

0.38 

0.125 

0.549 

0.245 

0.1075 

0.174 

0.68 

0.56 

0.165 

1.639 

0.6055 

0.2805 

0.46 

0.605 

0.5 

0.185 

1.1185 

0.469 

0.2585 

0.335 

0.68 

0.55 

0.175 

1.798 

0.815 

0.3925 

0.455 

0.635 

0.515 

0.19 

1.3715 

0.5065 

0.305 

0.45 

0.705 

0.55 

0.2 

1.7095 

0.633 

0.4115 

0.49 

0.605 

0.485 

0.16 

1.0565 

0.37 

0.2355 

0.355 

0.54 

0.475 

0.155 

1.217 

0.5305 

0.3075 

0.34 

0.565 

0.45 

0.135 

0.9885 

0.387 

0.1495 

0.31 

0.45 

0.355 

0.105 

0.5225 

0.237 

0.1165 

0.145 

0.575 

0.46 

0.19 

0.994 

0.392 

0.2425 

0.34 

0.575 

0.445 

0.135 

0.883 

0.381 

0.2035 

0.26 

0.58 

0.455 

0.17 

0.9075 

0.374 

0.2135 

0.285 

0.45 

0.335 

0.105 

0.425 

0.1865 

0.091 

0.115 

0.575 

0.46 

0.165 

1.124 

0.2985 

0.1785 

0.44 

0.55 

0.425 

0.135 

0.8515 

0.362 

0.196 

0.27 

0.605 

0.485 

0.16 

1.222 

0.53 

0.2575 

0.28 

0.46 

0.375 

0.12 

0.4605 

0.1775 

0.11 

0.15 

0.725 

0.56 

0.21 

2.141 

0.65 

0.398 

1.005 

0.525 

0.425 

0.16 

0.8355 

0.3545 

0.2135 

0.245 

0.65 

0.545 

0.23 

1.752 

0.5605 

0.2895 

0.815 

0.47 

0.36 

0.12 

0.4775 

0.2105 

0.1055 

0.15 

0.725 

0.575 

0.175 

2.124 

0.765 

0.4515 

0.85 

0.5 

0.4 

0.14 

0.6615 

0.2565 

0.1755 

0.22 

0.68 

0.57 

0.205 

1.842 

0.625 

0.408 

0.65 

0.505 

0.4 

0.125 

0.583 

0.246 

0.13 

0.175 

0.68 

0.515 

0.175 

1.6185 

0.5125 

0.409 

0.62 

0.53 

0.41 

0.13 

0.6965 

0.302 

0.1935 

0.2 

0.53 

0.395 

0.145 

0.775 

0.308 

0.169 

0.255 

0.565 

0.44 

0.16 

0.915 

0.354 

0.1935 

0.32 

0.52 

0.405 

0.115 

0.776 

0.32 

0.1845 

0.22 

0.595 

0.495 

0.185 

1.285 

0.416 

0.224 

0.485 

0.56 

0.45 

0.16 

1.0235 

0.429 

0.268 

0.3 

0.475 

0.39 

0.12 

0.5305 

0.2135 

0.1155 

0.17 

0.62 

0.475 

0.175 

1.0165 

0.4355 

0.214 

0.325 

0.4 

0.32 

0.11 

0.353 

0.1405 

0.0985 

0.1 

0.645 

0.51 

0.2 

1.5675 

0.621 

0.367 

0.46 

0.595 

0.475 

0.17 

1.247 

0.48 

0.225 

0.425 

0.63 

0.48 

0.15 

1.0525 

0.392 

0.336 

0.285 

0.605 

0.45 

0.195 

1.098 

0.481 

0.2895 

0.315 

0.63 

0.5 

0.185 

1.383 

0.54 

0.3315 

0.38 

0.6 

0.475 

0.15 

1.0075 

0.4425 

0.221 

0.28 

0.63 

0.48 

0.16 

1.199 

0.5265 

0.335 

0.315 

0.6 

0.47 

0.15 

0.922 

0.363 

0.194 

0.305 

0.585 

0.46 

0.17 

0.9325 

0.365 

0.271 

0.29 

0.555 

0.425 

0.14 

0.788 

0.282 

0.1595 

0.285 

0.51 

0.4 

0.14 

0.8145 

0.459 

0.1965 

0.195 

0.615 

0.475 

0.17 

1.1025 

0.4695 

0.2355 

0.345 

0.505 

0.41 

0.15 

0.644 

0.285 

0.145 

0.21 

0.575 

0.445 

0.14 

0.941 

0.3845 

0.252 

0.285 

0.45 

0.345 

0.12 

0.4165 

0.1655 

0.095 

0.135 

0.52 

0.425 

0.165 

0.9885 

0.396 

0.225 

0.32 

0.5 

0.4 

0.145 

0.63 

0.234 

0.1465 

0.23 

0.57 

0.465 

0.18 

1.295 

0.339 

0.2225 

0.44 

0.53 

0.435 

0.17 

0.8155 

0.2985 

0.155 

0.275 

0.46 

0.355 

0.13 

0.517 

0.2205 

0.114 

0.165 

0.44 

0.34 

0.14 

0.482 

0.186 

0.1085 

0.16 

0.575 

0.45 

0.16 

0.9775 

0.3135 

0.231 

0.33 

0.525 

0.415 

0.17 

0.8325 

0.2755 

0.1685 

0.31 

0.625 

0.495 

0.165 

1.262 

0.507 

0.318 

0.39 

0.49 

0.365 

0.145 

0.6345 

0.1995 

0.1625 

0.22 

0.475 

0.375 

0.125 

0.5785 

0.2775 

0.085 

0.155 

0.415 

0.325 

0.105 

0.38 

0.1595 

0.0785 

0.12 

0.52 

0.41 

0.155 

0.727 

0.291 

0.1835 

0.235 

0.485 

0.395 

0.16 

0.66 

0.2475 

0.128 

0.235 

0.545 

0.43 

0.165 

0.802 

0.2935 

0.183 

0.28 

0.415 

0.305 

0.13 

0.32 

0.1305 

0.0755 

0.105 

0.5 

0.4 

0.125 

0.6675 

0.261 

0.1315 

0.22 

0.445 

0.325 

0.125 

0.455 

0.1785 

0.1125 

0.14 

0.51 

0.39 

0.135 

0.6335 

0.231 

0.179 

0.2 

0.47 

0.35 

0.145 

0.5175 

0.187 

0.1235 

0.18 

0.435 

0.395 

0.105 

0.3635 

0.136 

0.098 

0.13 

0.49 

0.375 

0.15 

0.5755 

0.22 

0.144 

0.19 

0.545 

0.41 

0.125 

0.6935 

0.2975 

0.146 

0.21 

0.445 

0.355 

0.15 

0.485 

0.181 

0.125 

0.155 

SOLUCION  ) 

(a)  Sea  X=  [XI  ;X2  ;X3]  la  matriz  250  x 7 que  contiene  los  datos  de  las  Tablas  8.3,  8.4  y 
8.5,  en  este  orden.  Para  realizar  el  analisis  canonico  de  poblaciones  utilizaremos  la  funcion 
canp . m: 

n = [100  100  50]  ; 

[mY,  V,  B , W,  percent , Testl , textol , Test2 , texto2]  = canp(X,n) 

El  vector  percent  contiene  los  porcentajes  de  variabilidad  explicados  por  los  2 ejes  ca- 
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Tabla  8.4. 

Datos  para  el  Problema  8.4.  Grupo  2:  olmos  masculinos 


Xi 

A2 

a3 

a4 

As 

a6 

X7 

Xi 

a2 

a3 

a4 

As 

Ae 

X7 

0.665 

0.525 

0.165 

1.338 

0.5515 

0.3575 

0.35 

0.515 

0.405 

0.13 

0.722 

0.32 

0.131 

0.21 

0.465 

0.355 

0.105 

0.4795 

0.227 

0.124 

0.125 

0.645 

0.485 

0.215 

1.514 

0.546 

0.2615 

0.635 

0.355 

0.29 

0.09 

0.3275 

0.134 

0.086 

0.09 

0.605 

0.465 

0.165 

1.056 

0.4215 

0.2475 

0.34 

0.47 

0.37 

0.12 

0.5795 

0.293 

0.227 

0.14 

0.61 

0.485 

0.175 

1.2445 

0.544 

0.297 

0.345 

0.4 

0.32 

0.095 

0.303 

0.1335 

0.06 

0.1 

0.725 

0.57 

0.19 

2.55 

1.0705 

0.483 

0.725 

0.485 

0.36 

0.13 

0.5415 

0.2595 

0.096 

0.16 

0.705 

0.56 

0.22 

1.981 

0.8175 

0.3085 

0.76 

0.405 

0.31 

0.1 

0.385 

0.173 

0.0915 

0.11 

0.695 

0.55 

0.215 

1.9565 

0.7125 

0.541 

0.59 

0.445 

0.35 

0.12 

0.4425 

0.192 

0.0955 

0.135 

0.525 

0.435 

0.155 

1.065 

0.486 

0.233 

0.285 

0.47 

0.385 

0.135 

0.5895 

0.2765 

0.12 

0.17 

0.58 

0.475 

0.15 

0.97 

0.385 

0.2165 

0.35 

0.45 

0.345 

0.105 

0.4115 

0.18 

0.1125 

0.135 

0.57 

0.48 

0.18 

0.9395 

0.399 

0.2 

0.295 

0.505 

0.405 

0.11 

0.625 

0.305 

0.16 

0.175 

0.64 

0.51 

0.175 

1.368 

0.515 

0.266 

0.57 

0.425 

0.325 

0.095 

0.3785 

0.1705 

0.08 

0.1 

0.62 

0.49 

0.19 

1.218 

0.5455 

0.2965 

0.355 

0.52 

0.4 

0.12 

0.58 

0.234 

0.1315 

0.185 

0.615 

0.48 

0.18 

1.1595 

0.4845 

0.2165 

0.325 

0.475 

0.355 

0.12 

0.48 

0.234 

0.1015 

0.135 

0.61 

0.485 

0.17 

1.0225 

0.419 

0.2405 

0.36 

0.555 

0.425 

0.13 

0.7665 

0.264 

0.168 

0.275 

0.58 

0.45 

0.15 

0.927 

0.276 

0.1815 

0.36 

0.57 

0.48 

0.175 

1.185 

0.474 

0.261 

0.38 

0.5 

0.405 

0.155 

0.772 

0.346 

0.1535 

0.245 

0.595 

0.475 

0.14 

0.944 

0.3625 

0.189 

0.315 

0.64 

0.5 

0.185 

1.3035 

0.4445 

0.2635 

0.465 

0.62 

0.51 

0.175 

1.615 

0.5105 

0.192 

0.675 

0.56 

0.45 

0.16 

0.922 

0.432 

0.178 

0.26 

0.595 

0.475 

0.16 

1.3175 

0.408 

0.234 

0.58 

0.585 

0.46 

0.185 

0.922 

0.3635 

0.213 

0.285 

0.58 

0.45 

0.14 

1.013 

0.38 

0.216 

0.36 

0.5 

0.4 

0.165 

0.825 

0.254 

0.205 

0.285 

0.625 

0.465 

0.14 

1.195 

0.4825 

0.205 

0.4 

0.42 

0.335 

0.115 

0.369 

0.171 

0.071 

0.12 

0.56 

0.44 

0.16 

0.8645 

0.3305 

0.2075 

0.26 

0.335 

0.25 

0.09 

0.181 

0.0755 

0.0415 

0.06 

0.565 

0.425 

0.135 

0.8115 

0.341 

0.1675 

0.255 

0.5 

0.405 

0.14 

0.6155 

0.241 

0.1355 

0.205 

0.555 

0.44 

0.15 

0.755 

0.307 

0.1525 

0.26 

0.55 

0.405 

0.14 

0.8025 

0.244 

0.1635 

0.255 

0.595 

0.465 

0.175 

1.115 

0.4015 

0.254 

0.39 

0.45 

0.35 

0.13 

0.46 

0.174 

0.111 

0.135 

0.695 

0.56 

0.19 

1.494 

0.588 

0.3425 

0.485 

0.47 

0.36 

0.135 

0.501 

0.1665 

0.115 

0.165 

0.665 

0.535 

0.195 

1.606 

0.5755 

0.388 

0.48 

0.555 

0.445 

0.135 

0.836 

0.336 

0.1625 

0.275 

0.535 

0.435 

0.15 

0.725 

0.269 

0.1385 

0.25 

0.565 

0.44 

0.175 

0.9025 

0.31 

0.193 

0.325 

0.47 

0.375 

0.13 

0.523 

0.214 

0.132 

0.145 

0.625 

0.505 

0.215 

1.4455 

0.496 

0.287 

0.435 

0.47 

0.37 

0.13 

0.5225 

0.201 

0.133 

0.165 

0.565 

0.425 

0.16 

0.9425 

0.3495 

0.2185 

0.275 

0.55 

0.435 

0.145 

0.843 

0.328 

0.1915 

0.255 

0.59 

0.47 

0.18 

1.1235 

0.4205 

0.2805 

0.36 

0.53 

0.435 

0.16 

0.883 

0.316 

0.164 

0.335 

0.6 

0.495 

0.165 

1.2415 

0.485 

0.2775 

0.34 

0.53 

0.415 

0.14 

0.724 

0.3105 

0.1675 

0.205 

0.56 

0.45 

0.175 

1.011 

0.3835 

0.2065 

0.37 

0.605 

0.47 

0.16 

1.1735 

0.4975 

0.2405 

0.345 

0.56 

0.45 

0.185 

1.07 

0.3805 

0.175 

0.41 

0.495 

0.395 

0.125 

0.5415 

0.2375 

0.1345 

0.155 

0.545 

0.46 

0.16 

0.8975 

0.341 

0.1655 

0.345 

0.465 

0.36 

0.105 

0.431 

0.172 

0.107 

0.175 

0.53 

0.42 

0.165 

0.8945 

0.319 

0.239 

0.245 

0.425 

0.35 

0.105 

0.393 

0.13 

0.063 

0.165 

0.27 

0.2 

0.08 

0.1205 

0.0465 

0.028 

0.04 

0.44 

0.34 

0.105 

0.402 

0.1305 

0.0955 

0.165 

0.52 

0.45 

0.15 

0.895 

0.3615 

0.186 

0.235 

0.405 

0.305 

0.085 

0.2605 

0.1145 

0.0595 

0.085 

0.35 

0.275 

0.11 

0.2925 

0.1225 

0.0635 

0.0905 

0.37 

0.265 

0.075 

0.214 

0.09 

0.051 

0.07 

0.47 

0.39 

0.15 

0.6355 

0.2185 

0.0885 

0.255 

0.7 

0.535 

0.16 

1.7255 

0.63 

0.2635 

0.54 

0.59 

0.5 

0.2 

1.187 

0.412 

0.2705 

0.37 

0.71 

0.54 

0.165 

1.959 

0.7665 

0.261 

0.78 

0.62 

0.485 

0.205 

1.219 

0.3875 

0.2505 

0.385 

0.595 

0.48 

0.165 

1.262 

0.4835 

0.283 

0.41 

0.63 

0.505 

0.225 

1.525 

0.56 

0.3335 

0.45 

0.345 

0.255 

0.09 

0.2005 

0.094 

0.0295 

0.063 

0.63 

0.515 

0.155 

1.259 

0.4105 

0.197 

0.41 

0.375 

0.285 

0.095 

0.253 

0.096 

0.0575 

0.0925 

0.655 

0.54 

0.215 

1.844 

0.7425 

0.327 

0.585 

0.65 

0.52 

0.19 

1.3445 

0.519 

0.306 

0.4465 

0.61 

0.5 

0.24 

1.642 

0.532 

0.3345 

0.69 

0.56 

0.455 

0.155 

0.797 

0.34 

0.19 

0.2425 

0.635 

0.525 

0.205 

1.484 

0.55 

0.3115 

0.43 

0.475 

0.375 

0.13 

0.5175 

0.2075 

0.1165 

0.17 

0.485 

0.395 

0.14 

0.6295 

0.2285 

0.127 

0.225 

0.46 

0.35 

0.12 

0.515 

0.224 

0.108 

0.1565 

0.515 

0.38 

0.175 

0.9565 

0.325 

0.158 

0.31 

0.59 

0.475 

0.145 

1.053 

0.4415 

0.262 

0.325 

0.53 

0.435 

0.155 

0.699 

0.288 

0.1595 

0.205 

nonicos,  con  un  97.6454%  de  variabilidad  explicada  por  el  primer  eje.  Para  el  contraste  de 
comparacion  de  medias  se  obtiene  una  F(  14,  182)  = 22.2795,  por  lo  que  se  infiere  que  las 
medias  son  distintas. 

percent  = 97.6454  2.3546 

Testl  = 22.2795  14.0000  482.0000  0 

textol  = Testl:  Igualdad  de  medias  (Lambda  de  Wilks) : p-valor=  0 
La  Figura  8.6  muestra  la  representation  canonica  de  los  individuos  en  dos  dimensiones  con  un 
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Tabla  8.5. 

Datos  para  el  Problema  8.4.  Grupo  3:  olmos  juveniles  o plantulas. 


A'i 

A2 

a-3 

A'4 

As 

A'e 

X7 

Ai 

a2 

A3 

a4 

As 

A6 

X7 

0.28 

0.205 

0.08 

0.127 

0.052 

0.039 

0.042 

0.33 

0.255 

0.085 

0.1655 

0.063 

0.039 

0.06 

0.175 

0.13 

0.055 

0.0315 

0.0105 

0.0065 

0.0125 

0.35 

0.26 

0.085 

0.174 

0.0705 

0.0345 

0.06 

0.17 

0.13 

0.095 

0.03 

0.013 

0.008 

0.01 

0.32 

0.245 

0.08 

0.1585 

0.0635 

0.0325 

0.05 

0.235 

0.16 

0.04 

0.048 

0.0185 

0.018 

0.015 

0.36 

0.275 

0.085 

0.1975 

0.0745 

0.0415 

0.07 

0.36 

0.26 

0.09 

0.1785 

0.0645 

0.037 

0.075 

0.305 

0.245 

0.075 

0.156 

0.0675 

0.038 

0.045 

0.315 

0.21 

0.06 

0.125 

0.06 

0.0375 

0.035 

0.345 

0.27 

0.11 

0.2135 

0.082 

0.0545 

0.07 

0.315 

0.245 

0.085 

0.1435 

0.053 

0.0475 

0.05 

0.33 

0.25 

0.105 

0.1715 

0.0655 

0.035 

0.06 

0.225 

0.16 

0.045 

0.0465 

0.025 

0.015 

0.015 

0.245 

0.195 

0.06 

0.095 

0.0445 

0.0245 

0.026 

0.355 

0.275 

0.085 

0.22 

0.092 

0.06 

0.15 

0.36 

0.285 

0.105 

0.2415 

0.0915 

0.057 

0.075 

0.4 

0.3 

0.11 

0.315 

0.109 

0.067 

0.12 

0.295 

0.215 

0.085 

0.128 

0.049 

0.034 

0.04 

0.435 

0.34 

0.11 

0.3795 

0.1495 

0.085 

0.12 

0.275 

0.205 

0.075 

0.1105 

0.045 

0.0285 

0.035 

0.37 

0.28 

0.095 

0.2655 

0.122 

0.052 

0.08 

0.28 

0.21 

0.085 

0.1065 

0.039 

0.0295 

0.03 

0.405 

0.3 

0.12 

0.324 

0.1265 

0.07 

0.11 

0.2 

0.145 

0.06 

0.037 

0.0125 

0.0095 

0.011 

0.425 

0.38 

0.105 

0.3265 

0.1285 

0.0785 

0.1 

0.165 

0.12 

0.03 

0.0215 

0.007 

0.005 

0.005 

0.365 

0.27 

0.085 

0.205 

0.078 

0.0485 

0.07 

0.45 

0.355 

0.11 

0.4585 

0.194 

0.067 

0.14 

0.275 

0.215 

0.075 

0.1155 

0.0485 

0.029 

0.035 

0.33 

0.255 

0.095 

0.172 

0.066 

0.0255 

0.06 

0.44 

0.35 

0.135 

0.435 

0.1815 

0.083 

0.125 

0.265 

0.21 

0.06 

0.0965 

0.0425 

0.022 

0.03 

0.295 

0.225 

0.08 

0.124 

0.0485 

0.032 

0.04 

0.19 

0.145 

0.04 

0.038 

0.0165 

0.0065 

0.015 

0.075 

0.055 

0.01 

0.002 

0.001 

0.0005 

0.0015 

0.265 

0.205 

0.07 

0.1055 

0.039 

0.041 

0.035 

0.13 

0.1 

0.03 

0.013 

0.0045 

0.003 

0.004 

0.355 

0.275 

0.09 

0.251 

0.097 

0.053 

0.08 

0.11 

0.09 

0.03 

0.008 

0.0025 

0.002 

0.003 

0.32 

0.255 

0.1 

0.1755 

0.073 

0.0415 

0.065 

0.16 

0.12 

0.035 

0.021 

0.0075 

0.0045 

0.005 

0.36 

0.28 

0.09 

0.2255 

0.0885 

0.04 

0.09 

0.27 

0.2 

0.07 

0.1 

0.034 

0.0245 

0.035 

0.3 

0.22 

0.08 

0.121 

0.0475 

0.042 

0.035 

0.23 

0.175 

0.065 

0.0645 

0.026 

0.0105 

0.02 

0.235 

0.175 

0.04 

0.0705 

0.0335 

0.015 

0.02 

0.3 

0.23 

0.08 

0.1275 

0.0435 

0.0265 

0.04 

0.34 

0.26 

0.08 

0.2 

0.08 

0.0555 

0.055 

100%  de  la  variabilidad  explicada. 


Coordenadas  canonicas  (1 00%) 

5| . . . . . . . 
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1 er.  eje  canonico 

1 . olmos  femeninos,  2.  olmos  masculinos,  3.  olmos  juveniles 

Figura  8.6. 

Analisis  canonico  de  poblaciones  (Problema  8.4) 
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(b)  Las  regiones  confidenciales  para  los  individuos  medios,  al  95%  son: 

r = regconf (mY, n, 7 , 0 . 95) 
r = 0.3833  0.3833  0.5420 

Puesto  que  el  numero  de  individuos  es  considerable,  para  una  interpretation  mas  clara,  re- 
presentaremos  solamente  los  individuos  medios  y sus  regiones  confidenciales.  La  Figura  8.7 
contiene  esta  representation,  donde  puede  observarse  que  las  diferencias  entre  los  tres  grupos 
son  debidas  al  grupo  de  olmos  juveniles. 


1 . olmos  femeninos,  2.  olmos  masculinos,  3.  olmos  juveniles 

Figura  8.7. 

Regiones  confidenciales  al  95%  (Problema  8.4) 


(c)  Las  columnas  de  la  matriz  V contienen  los  coeficientes  de  los  ejes  canonicos.  Asf  el 
primer  eje  es: 


Yi  = 11.66X1  + 8.38X2  + 5.35X3-3.20X4  + 2.49X5-1.31X6  + 0.27X7, 

donde  las  variables  que  mas  contribuyen  son  Xi,  X2  y X3,  que  corresponden,  respectiva- 
mente,  a la  longitud  (o  mayor  medida  de  la  corteza),  el  diametro  y la  altura  (con  madera  dentro 
de  la  corteza)  del  olmo.  Contribuciones  positivas  en  estas  tres  variables  indican  un  arbol  alto 
y grueso,  por  tanto,  el  primer  eje  canonico  podrfa  interpretarse  como  una  medida  general  del 
tamano  del  olmo.  En  la  Figura  8.7  se  observa  que  los  olmos  juveniles  son  los  que  puntuan  mas 
bajo  respecto  del  primer  eje  canonico,  mientras  que  los  olmos  adultos  (femeninos  o masculi- 
nos) puntuan  mas  alto.  Tambien  se  observa  que  entre  los  olmos  adultos  no  existen  diferencias 
en  cuanto  a su  tamano,  pero  si  respecto  del  segundo  eje  canonico: 

Y2  = 18.11  Xi  - 10.74X2-  18.86X3-8.04X4-4.14X5  + 28.47X6  + 7.11X7. 

Las  variables  que  mas  contribuyen  a este  eje  son  Xi,  X2,  X3  y X6,  que  es  el  peso  de  las 
vfsceras.  La  primera  y ultima  variables  lo  hacen  en  sentido  positivo,  mientras  que  X2  y X3  lo 
hacen  en  sentido  negativo.  Este  segundo  eje  podrfa  interpretarse  como  un  fndice  del  contenido 
relativo  de  madera  del  arbol.  En  la  Figura  8.7  se  observa  que  los  olmos  femeninos  puntuan 
mas  alto  respecto  de  este  eje,  indicando  que  el  contenido  relativo  de  madera  es  mayor  en  este 
grupo  de  individuos. 
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PROBLEMA  8.5 


La  Tabla  8.6  contiene  once  variables  medidas  sobre  un  total  de  44  individuos  pertene- 
cientes  a cuatro  especies  de  cocodrilos:  1.  Alligator  mississippiensis,  2.  Crocodylus 
niloticus,  3.  Crocodylus  porosus,  4.  Osteolaemus  tetraspis.  La  Figura  8.8  muestra  las 
regiones  geogrdficas  donde  se  encuentran  estas  especies  de  cocodrilos.  Las  variables 
medidas  sobre  cada  individuo  son:  X \ =longitud  del  crdneo,  X2  =ancho  del  crdneo, 
X3  =ancho  del  hocico,  X4  =longitud  del  hocico,  X5  =Iongitud  dorsal  del  crdneo, 
Xq  =ancho  mdximo  orbital,  X7  =ancho  mmimo  inter-orbital,  Xs  =longitud  maxima 
orbital,  X9  =longitud  del  paladar  post-orbital,  X10  =ancho  posterior  del  paladar, 
Xu  =ancho  mdximo  entre  orificios  nasales  (Fuente:  Iordansky  1973). 


Alligator  mississippiensis 


Crocodylus  porosus 


t am 


Crocodylus  niloticus 


Osteolaemus  tetraspis 


Figura  8.8. 

Habitat  de  las  cuatro  especies  de  cocodrilos.  (Problema  8.5) 


Realicese  la  representacion  candnica  de  las  cuatro  especies,  especificando  los  por- 
centajes  de  variabilidad  explicados  por  cada  eje  canonico.  Suponiendo  normalidad 
multivariante,  construyanse  las  regiones  confidenciales  (al  90%)  para  los  individuos 
medios  de  cada  grupo. 


SOLUCION  ) 

Sea  X la  matriz  que  contiene  los  datos  de  la  Tabla  8.6.  Para  poder  utilizar  las  funciones  canp  y 
regconf , construimos  mediante  la  funcion  interna  de  Matlab  f ind,  un  vector  que  contenga 
el  numero  de  individuos  de  cada  grupo: 

n = zeros  (1,4)  ; 
for  i = 1 : 4 

grupo  = find (X ( : , 1) ==i)  ; 
n(i)  = length (grupo) ; 

end 
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Tabla  8.6. 

Datos  para  el  Problema  8.5. 


especie 

Xj 

X2 

X3 

x4 

a:5 

X6 

X7 

ATs 

*9 

X10 

Xu 

i 

72 

40 

37 

35 

71 

17 

5 

20 

15 

25 

11 

i 

220 

112 

98 

138 

216 

30 

16 

46 

36 

64 

31 

i 

225 

150 

89 

140 

220 

32 

17 

52 

37 

82 

30 

i 

272 

138 

120 

175 

262 

24 

25 

54 

44 

78 

38 

i 

288 

148 

126 

180 

275 

40 

22 

58 

42 

82 

40 

i 

290 

150 

117 

183 

270 

40 

20 

54 

46 

82 

40 

i 

292 

150 

127 

166 

284 

49 

26 

56 

48 

86 

39 

i 

320 

150 

124 

203 

310 

40 

25 

62 

46 

80 

38 

i 

354 

178 

137 

240 

337 

42 

25 

69 

50 

89 

51 

i 

366 

186 

160 

232 

348 

39 

32 

68 

54 

98 

53 

i 

380 

236 

210 

238 

358 

52 

27 

63 

63 

120 

64 

2 

160 

64 

46 

100 

153 

20 

9 

22 

30 

39 

9 

2 

198 

94 

70 

121 

186 

25 

13 

31 

32 

48 

13 

2 

248 

243 

76 

159 

235 

30 

16 

41 

42 

105 

15 

2 

254 

114 

71 

158 

235 

28 

16 

40 

42 

65 

15 

2 

420 

235 

170 

270 

400 

37 

42 

60 

68 

105 

42 

2 

440 

250 

170 

280 

420 

42 

50 

65 

70 

120 

48 

2 

525 

290 

220 

360 

495 

45 

48 

72 

82 

145 

54 

2 

582 

336 

218 

382 

554 

48 

58 

72 

76 

105 

57 

2 

610 

345 

268 

400 

564 

46 

90 

85 

76 

164 

56 

3 

76 

30 

22 

41 

73 

13 

4 

17 

16 

20 

4 

3 

548 

74 

56 

364 

513 

23 

10 

29 

26 

44 

48 

3 

238 

292 

68 

154 

230 

29 

12 

36 

30 

55 

48 

3 

408 

200 

148 

274 

390 

38 

36 

57 

54 

110 

32 

3 

548 

300 

210 

364 

513 

46 

55 

68 

65 

150 

48 

3 

565 

292 

216 

405 

550 

45 

64 

70 

90 

160 

48 

3 

672 

384 

302 

452 

620 

50 

70 

90 

85 

185 

64 

3 

800 

416 

324 

516 

740 

63 

82 

100 

105 

204 

75 

4 

164 

90 

70 

90 

160 

36 

16 

42 

32 

57 

20 

4 

188 

107 

71 

92 

160 

29 

13 

38 

35 

65 

18 

4 

170 

98 

72 

98 

165 

31 

14 

42 

35 

60 

20 

4 

173 

107 

70 

100 

165 

33 

12 

40 

35 

60 

22 

4 

175 

102 

73 

102 

165 

32 

14 

42 

38 

64 

24 

4 

185 

105 

77 

105 

175 

32 

14 

44 

40 

61 

22 

4 

185 

105 

78 

105 

175 

33 

16 

40 

40 

61 

22 

4 

188 

107 

82 

108 

180 

33 

16 

40 

40 

65 

24 

4 

188 

104 

80 

110 

178 

34 

15 

44 

40 

64 

24 

4 

190 

108 

80 

112 

180 

32 

16 

45 

38 

65 

24 

4 

194 

110 

82 

114 

182 

34 

15 

44 

38 

67 

24 

4 

194 

117 

92 

117 

180 

34 

18 

43 

42 

70 

23 

4 

203 

108 

88 

116 

193 

35 

16 

46 

40 

69 

26 

4 

210 

107 

91 

124 

178 

36 

19 

48 

40 

65 

26 

4 

225 

128 

105 

128 

215 

40 

20 

52 

45 

75 

28 

4 

240 

136 

91 

133 

222 

38 

19 

51 

46 

76 

27 

y obtenemos:  n=  [11  9 8 16]  . Para  obtener  la  representation  canonica,  haremos 

[mY, V, B , W, percent , Testl , t extol , Test2 , texto2]  = canp (X ( : , 2 : 11) ,n) 
r = regconf (mY, n, 11 , 0 . 90 ) 

El  vector  percent  contiene  los  porcentajes  de  variabilidad  explicados  por  los  2 ejes  canoni- 
cos,  con  un  77.0181%  de  variabilidad  explicada  por  el  primer  eje.  Para  el  contraste  de  compa- 
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racion  de  medias  se  obtiene  una  A (83. 89)  = 6.2528,  por  lo  que  se  infiere  que  las  medias  son 
distintas. 

mY  = 

5.2342  0.3893 

-0.5270  -2.1787 

-1.0138  -0.1066 

4.2779  -2.7562 

percent  = 77.0181  20.4787  2.5032 

Testl  = 6.2528  33.0000  89.0000  0.0000 

textol  = Testl:  Igualdad  de  medias  (Lambda  de  Wilks) : p-valor=2 . 6755e-012 

La  Figura  8.9  contiene  la  representacion  canonica  de  los  cocodrilos  en  dos  dimensiones  con 
un  97.5%  de  la  variabilidad  explicada  junto  con  las  regiones  confidenciales  al  90%  para  los 
individuos  medios. 


Regiones  confidenciales  para  los  individuos  medios  al  90% 


Figura  8.9. 

Analisis  canonico  de  poblaciones  (Problema  8.5) 
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CAPITULO  W 

Analisis  discriminante  y 

clas  ficacion 


Supongamos  que  tenemos  vaiias  poblaciones  conocidas  fli, . . . , Qg,  en  cada  una  de 
las  cuales  observamos  una  muestra  de  cierto  vector  de  interes  X = (X\ . . . . , Xp)'. 

El  analisis  discriminante  se  ocupa  de  describir,  mediante  las  variables  X,,  los  rasgos 
diferenciales  entre  las  poblaciones.  Se  trata  de  encontrar  funciones  discriminantes  o 
reglas  de  decision  h = h{x\ . . . . , xp)  cuyos  valores  en  los  distintos  grupos  esten  lo 
mas  se  parados  posible.  O.  mas  precisamente,  buscamos  funciones  h sencillas  que 
permitan  asignar  cada  observacion  x = (x\ , . . . , xp)'  a una  poblacion  Q,  minimizando 
la  tasa  de  error  en  dicha  asignacion.  La  mas  conocida  es  la  regia  discriminante  lineal 
de  Fisher,  donde  h es  una  funcion  lineal  de  x. 

El  problema  de  clasificacion,  como  su  mismo  nombre  indica,  trata  de  ciasilicar  una 
nueva  observacion  x,  cuya  poblacion  de  procedencia  se  desconoce,  en  alguna  de  las 
poblaciones  Q,;.  Para  ello  se  utilizan  las  funciones  discriminantes  construidas  a partir 
de  la  muestra. 
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PROBLEMA  9.1 


Sean  y dos  poblaciones  con  distribuciones  y A^(/X2,S)  respec- 

tivamente.  El  discriminador  lineal  de  Fisher  que  asigna  x £ a una  de  las  dos 
poblaciones  anteriores  es 

L(x)  = (x-  ^(/*i  +H2)]  S_1(/xi  -/i2). 

La  regia  discriminante  lineal  de  Fisher  consiste  en  asignar  x a la  poblacion  si 
L(x)  > 0 y,  en  caso  contrario,  asignar  x a la  poblacion  02. 

(a)  Expresese  L(x)  como  la  diferencia  entre  los  cuadrados  de  las  distancias  de 
Mahalanobis  de  x a /x  \ y de  x a /x2. 

(b)  Demuestrese  que  la  probabilidad  de  clasificacion  erronea  es  pee  = <&(— M/2), 
donde  M 2 = (mi  — /X2)/S^1  (/^i  — M2)  es  la  distancia  de  Mahalanobis  entre 
las  poblaciones  0l\  y 0l2  y ^ es  la  funcion  de  distribucion  de  una  ley  normal 
estdndar. 


SOLUCION  ) 

(a)  L(x)  = x'  XT1  p1  - x'  XT1  /x2  - \ Mi  Mi 

+ \ Mi  £_1  M2  - \ M2  Mi  + \ M2  M2 

= i x'  XT1  Mi  + ^ x'  XT1  Mi  - x'  XI-1  p2 

- \ x'  XT1  M2  - ^ Mi  Mi  + \ M2  M2 

= — (x'S_1X  — x'S"V2  — M2^~lx  + M2^_1M2 

— x'Xl_1x  + x'S-Vi  + Mi^_lx  + Mi-^^Mi) 

= ^ (4l(x.  M2)  - Mi))  ■ 


(b)  El  discriminador  lineal  de  Fisher  puede  escribirse  como 

L(X)  = (x  - ^(mi  + p2)j  S-1  (/X!  - M2)  = (x  - m)'  a = a'  (x  - /x), 

donde  a = X!-1  (/xi  — p2)  y M = (Mi  + M2)/2-  Si  x 6 Rp  proviene  de  alguna  de  las 
poblaciones  O,,  i = 1,2,  L(x)  tendra  ley  normal.  Su  varianza  sera 

var(L(x))  = var  (a'  (x  — /x))  = a'  XI  a = M 2 
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y su  esperanza: 


E(L(x))  = a'  £(x  — /it)  = 


\ a'  (p1  - p2)  = \ M2,  si  x G fii, 
-A  a'  (/xi  - p2)  = M2,  sixG^2- 


Por  tanto,  L(x)  ~ N(^M2,M2)  si  x G Hi  y L(x)  ~ N(—^M2,M2)  si  x G f22.  El 
individuo  x se  clasificara  erroneamente  cuando  se  asigne  a la  poblacion  0|  y en  realidad 
provenga  de  02.  o bien,  cuando  se  asigne  a la  poblacion  il  > y en  realidad  provenga  de  Q-| . 
Luego  la  probabilidad  de  clasificacion  erronea  es: 

pee  = i P (L(x)  > 0/x  G fl2)  + \p  (£(x)  < 0/x  G fli) 


= -P 
2 


= U(-M 
2 \ 2 


L(x)  + \M2  \M2 


U(-M 
2 \ 2 


£(x)  - \M2  ^ -\M2 


= '!>(- 


PROBLEMA  9. 


Sean  fii  y Ll2  dos  poblaciones  y~X.  = {X\ , . . . , Xp)'  un  vector  con  distribucion  de  pro- 
babilidad conocida,  dependiente  de  un  pardmetro  6 que  toma  el  valor  0\  si  X G Q| 
y 0>  si  X G 0.2-  Sea  x = (xi , . . . , xp)'  el  vector  de  observaciones  de  X sob  re  un 
individuo  u>.  La  probabilidad  o verosimilitud  de  la  obsetvacion  x en  Qj  es 

£i(x)  = f(xi,...,xp;6i). 

La  regia  discriminante  de  maxima  verosimilitud  consiste  en  asignar  to  a la  poblacion 
ilj  para  la  que  la  verosimilitud  de  la  observacion  es  mayor.  Esta  regia  tiene  asociada 
la  siguiente  funcion  discriminante 

V(x)  = log  £i(x)  - log  £2(x). 

Dada  una  probabilidad  a priori,  qh  = P ( uj  G Q,.),  la  probabilidad  a posteriori,  cono- 
cido  x,  se  obtiene  de  la  expresion: 


P(lo  G fij|x)  = 


Qi  Cj{x) 

qi  £i(x)  + q2  E’2 (x) 


La  regia  discriminante  de  Bayes  asigna  to  ala  poblacion  Q,  para  la  que  P(lo  G fij|x) 
es  maxima.  Esta  regia  tiene  asociada  la  siguiente  funcion  discriminante 

B(x)  = log £i(x)  - log£2(x)  + \og(qi/q2). 


Para  este  problema  supongase  que  ilj  es  una  poblacion  Np{qit.  Xt),  i = 1,2. 


www.FreeLibros.me 


166 


PROBLEMAS  RESUELTOS  DE  ESTADISTICA  MULTIVARIANTE 


(a)  Demuestrese  que  si  Si  = S2  la  regia  de  maxima  verosimilitud  y la  regia  de 
Bayes  con  q\  = q2  = 1/2  coinciden  con  la  regia  discriminate  lineal  de  Fisher 
( vease  el  Problema  9. 1 ). 

(b)  Demuestrese  que  si  Si  7^  S2,  la  regia  de  maxima  verosimilitud  estd  basada  en 
el  discriminador  cuadrdtico 

Q(x)  = ix'  (S^-1  - Sr1)  X + x'  (Sf1  mi  - S-1  /*2) 

+ s2  1 B'2  - \p'i  SfVi  + i log  |s2|  - - log  I s 1 1 . 


SOLUCION  ) 

La  funcion  de  densidad  de  x en  la  poblacion  L>,  es: 

/i(x)  = 2 exP  (x  - Mi)'  Sf1  (x  - Mi)} 

(a)  Supongamos  que  Si  = S2  = S.  La  regia  de  maxima  verosimilitud  es 

V (x)  = log  / i (x)  log  /2  (x) 

= “5  iog  - 5 - A-i)'  s->  (^  - Mi) 

+ ^log/f/  + 5(x-''2)'5rl(x-''2> 

= \ ((x  - /^2)'S^1(x  - M2)  - (x  - Mi)'S_1(x  - Ml))  , 

que,  como  se  demostro  en  el  Problema  9. 1,  es  una  de  las  expresiones  del  discrimador  lineal  de 
Fisher. 

La  regia  de  Bayes  con  q\  = g2  = 1/2  (que  implica  log(gi/g2)  = 0)  es 

B(x)  = log  fi (x)  -log/2(x)  +log(gi/g2)  = V{x). 

(b)  Supongamos  ahora  que  Si  7I  S2.  La  regia  de  maxima  verosimilitud  es 

V(x)  = log/i(x)  — log/2(x) 

= log  |Si|  - | log(2  7r)  - i(x-  Mi)' (X-Mi) 

+ \ log|S2|  + | log(2  7r)  + i(x-M2)'S^1  (X-M2) 

= -^x'Sf^  + x'SfVi  - ^ Mi  Mi  + ^x'  S^x 

- x,S2^1M2  + 7)  M2  ^2_1  M2  + \ log  | S2 1 - | log  | Si  | 

= Q(x). 
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PROBLEMA  9.3 


Se  ha  tornado  una  muestra  de  ri\  = 25  escuelas  de  formation  a rtfs  tic  a y ri2  = 25 
centros  de  investigation  universitarios.  En  cada  uno  de  ellos  se  ha  observado  un 
vector  aleatorio  X = (X\,  Xf)' , donde  X \ es  el  porcentaje  de  profesores  con  grado 
de  doctor  en  esa  escuela  o universidad.  La  variable  X2  es  el  porcentaje  de  estudiantes 
matriculados  en  el  centro  que  estaban  entre  los  mejores  de  su  centro  de  education 
secundaria.  La  muestra  aparece  representada  en  la  Figura  9.1. 

100 F 1 1 1 1 1 1 1 1 3 


90 

80 

70 

60 

50 


60  65  70  75  80  85  90  95  100 

Figura  9.1. 

Diagrama  de  dispersion  con  los  datos  del  Problema  9.3 


O Artistica 
• Universi 


oo 

o 


(a)  Dibujese  sobre  el  grdfico  la  recta  de  proyeccion  que  en  la  opinion  del  lector 
(aproximadamente)  mejor  discrimine  entre  ambos  grupos.  Supongase  que  la 
direction  de  esa  recta  viene  determinada  por  un  vector  a = (ai,  a2)'.  Tratarde 
dat;  a partir  del  dibujo,  unos  valores  aproximados  para  a\  y a 2. 

(b)  Ahora  se  quiere  clasificar  una  nueva  observation  x = (xi,x2)'  en  alguno  de 
los  dos  grupos:  escuela  de  arte  o centro  de  investigation.  Sabiendo  que  los 
vectores  de  medias  y matrices  de  covarianzas  muestrales  de  ambas  poblaciones 
son,  respectivamente: 

xi  = (88.24,  67.24)',  x2  = (92.88, 81.64)', 

/ 44.35  22.73  \ _ / 83.69  44.70  \ 

1 “ V 22.73  116.69  ) ’ 2 “ V 44.70  148.24  ) ’ 

escribase  la  regia  de  clasificacion  lineal  de  Fisher.  Utilfcese  esta  regia  para 
asignar  la  observation  x = (80, 60)'  a una  escuela  de  arte  o a una  universidad. 
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' SOLUCION  ) 


(a)  Vease  Figura  9.2. 


Diagrama  de  dispersion  y regia  discriminante  lineal  (Problema  9.3) 


(b)  En  este  capftulo  denotaremos  por  S*  la  matriz  de  dispersion  de  la  poblacion  i definida  por 

Si  = x'h Xi/{m  - 1), 

donde  X,  es  la  matriz  de  datos  de  la  poblacion  i y H es  la  matriz  de  centrado  definida  en  el 
Problema  2.1.  La  regia  discriminante  lineal  de  Fisher  asigna  x a la  poblacion  1 (escuela  de 
arte)  si  a'x  > m,  donde 


a = S”1  (x!  - x2)  = (-0.0176,  -0.1042)', 

c,  ni  - 1 n2  - 1 ( 64.02  33.71  \ 

p m + n2  - 2 1 rn  + n2  - 2 2 V 33J1  132-46  ) 

es  la  matriz  de  covarianzas  comun  y 

to.  = + ^2)  = —9.35. 

Puesto  que  a'x  = —7.66  > to.  asignamos  x = (80, 60)'  a la  escuela  de  arte. 
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PROBLEMA  9.4 


Un  enologo  analiza  dos  componentes  X\  y X 2 en  sendas  muestras  de  dos  tipos  de 
vinos.  Los  resultados  del  andlisis  se  pueden  ver  en  la  Tabla  9.1.  Los  datos  se  han 
extraido  de  Newman  et  al.  (1998). 


Tabla  9.1. 

Muestras  de  dos  vinos  (Problema  9.4).  Fuente:  Newman  et  al.  (1998) 


Vino  1 

Vino  2 

Al 

A'2 

XI 

X2 

14.23 

1065 

12.37 

520 

13.20 

1050 

12.33 

680 

13.16 

1185 

12.64 

450 

14.37 

1480 

13.67 

630 

13.24 

735 

12.37 

420 

14.20 

1450 

12.17 

355 

14.39 

1290 

12.37 

678 

14.06 

1295 

13.11 

502 

14.83 

1045 

12.37 

510 

13.86 

1045 

13.34 

750 

14.10 

1510 

12.21 

718 

14.12 

1280 

12.29 

870 

13.75 

1320 

13.86 

410 

14.75 

1150 

13.49 

472 

14.38 

1547 

12.99 

985 

13.63 

1310 

14.30 

1280 

13.83 

1130 

14.19 

1680 

13.64 

845 

(a)  Denotemos  X = (X\ . X^  f.  Expresese  la  regia  de  clasificacion  lineal  de  Fisher 
para  una  nueva  observation  x = ( X\,X2 )'.  Progrdmese  como  unafuncion  de 
Matlab. 

(b)  ApUquese  la  regia  de  clasificacion  obtenida  en  el  apartado  anterior  al  caso 
concreto  en  que  x = (13.05, 515)'.  I A que  tipo  de  vino  corresponde? 


( SOLUC ION  ) 


(a)  La  regia  de  Fisher  esta  expresada  en  el  apartado  (b)  del  Problema  9.3.  Para  programarla 
como  funcion  de  Matlab  utilizaremos  el  siguiente  codigo: 

function  poblacion  = LinealDiscrim (x, XI , X2 ) 

% LinealDiscrim (x, XI , X2 ) 

% Clasifica  el  individuo  x en  la  poblacion  1 o en  la  2 
% utilizando  la  regia  discriminante  lineal  de  Fisher. 

% XI  y X2  son  muestras  de  las  poblaciones  1 y 2 respectivamente . 

x = x(:)  ; px  = length (x)  ; 
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[nl,pl]  = size (XI)  ; [n2,p2]  = size(X2)  ; 

if  pi  ~=  p2 

error ('Las  matrices  de  datos  no  tienen  dimensiones  coherentes' ) 
else 

p = pi  ; 
clear  pi  p2 

end 

if  px  ~=  p 

error ('El  vector  x no  tiene  dimension  adecuada' ) 
else 

clear  px 

end 

ml  = mean (XI)  ; % Media  muestral  de  poblacion  1 

m2  = mean(X2)  ; % Media  muestral  de  poblacion  2 

51  = cov(Xl)  ; % Matriz  de  covarianzas  (insesgado)  de  XI 

52  = cov(X2)  ; % Matriz  de  covarianzas  (insesgado)  de  X2 

S_p  = ( (nl-1)  * SI  + (n2-l)  * S2 ) / (nl+n2 -2 ) ; % Matriz  de 

% covarianzas  comun 

a = S_p\ ( (ml -m2)  ' ) ; 
m = (ml+m2)  * a/2; 

if  (a'  *x  > m) 
poblacion  = 1; 
else 

poblacion  = 2; 

end 

(b)  Dado  que  poblacion  = LinealDiscrim  (x,  XI , X2 ) toma  el  valor  2,  asignare- 
mos  esta  observation  al  segundo  tipo  de  vino  (que  es  de  hecho  la  poblacion  de  la  que  provenfa). 


PROBLEMA  9.5 


La  tabla  8.1  contiene  cuatro  medidas  X = (Xi . X2,  A/p  X4)'  sobre  tres  especies 
de  flores  del  genero  Iris  (vease  el  Problema  8.2  para  una  descripcion  completa  de 
los  datos).  Supondremos  que  el  vector  X obsetvado  sigue  una  distribucion  normal. 
Dadas  las  tres  nuevas  flores  (individuos) 


ind. 

^1 

x2 

x3 

x4 

Xl 

4.6 

3.6 

1.0 

0.2 

x2 

6.8 

2.8 

4.8 

1.4 

X3 

7.2 

3.2 

6.0 

1.8 

asfgnense  a alguna  de  las  tres  especies  (I.  setosa,  I.  virginica  o I.  versicolor/  mediante 

(a)  el  discriminador  lineal, 

(b)  el  discriminador  cuadrdtico. 
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( some  ion  ) 

Para  asignar  estos  nuevos  individuos  a alguna  de  las  poblaciones  (especies)  anteriores  nece- 
sitamos  una  regia  de  decision,  que  sera  distinta  segun  el  discriminador  que  se  utilice.  Para 
cualquiera  de  los  dos  metodos  especificados  en  el  enunciado  debemos  calcular  los  vectores  de 
medias  y las  matrices  de  covarianzas  de  cada  poblacion  y tambien  el  vector  de  medias  global 
y la  matriz  de  covarianzas  comun.  Los  vectores  de  medias  son: 


i 

Poblacion 

x' 

T 

I.  setosa 

5.01 

3.43 

1.46 

0.25 

2 

I.  versicolor 

5.94 

2.77 

4.26 

1.33 

3 

I.  virginica 

6.59 

2.97 

5.55 

2.03 

y las  matrices  de  covarianzas  de  cada  una  de  las  especies  son: 


Si 

S2 

s3 

0.12  0.10  0.02 

0.01 

0.27  0.09  0.18 

0.06 

0.40  0.09  0.30 

0.05 

0.14  0.01 

0.01 

0.10  0.08 

0.04 

0.10  0.07 

0.05 

0.03 

0.01 

0.22 

0.07 

0.30 

0.05 

0.01 

0.04 

0.08 

Por  tanto,  la  matriz  de  covarianzas  comun  es: 

0.17  0.04  \ 

0.06  0.03 
0.19  0.04  ' 

0.04  / 

(a)  La  regia  discriminante  lineal  asigna  una  nueva  observacion  x a aquella  poblacion  i tal  que 
la  distancia  de  Mahalanobis  de  x a su  media  x,:  sea  minima.  La  hipotesis  que  subyace  es  que  la 
distribucion  de  X es  normal  y tiene  la  misma  matriz  de  covarianzas  en  todas  las  poblaciones. 
Por  tanto,  calcularemos 

d(x,Xj)  = (x  - xi)'S_1(x  - x.j) 
y asignaremos  x a aquella  poblacion  i tal  que 

d(x,  x,)  < d(x,  Xj) 


/ 0.27 


S = 


0.10 

0.12 


para  todo  i ^ j. 

De  ahora  en  adelante  suponemos  que  ya  hemos  definido  en  Matlab  las  matrices  de  datos  XI, 
X2  y X3,  de  dimension  50x4  cada  una,  que  contienen  las  observaciones  de  las  especies  I. 
setosa,  I.  virginica  e I.  versicolor , respectivamente. 
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La  siguiente  funcion  permite  realizar  estos  calculos: 

function  [poblacion, D]  = LinealDiscrim3 (x, XI , X2 , X3 ) 

% [poblacion, D]  = LinealDiscrim3 (x, XI , X2 , X3 ) 

% Regia  discriminante  lineal  para  tres  poblaciones 
% Clasifica  el  individuo  x en  la  poblacion  1,  en  la  2 o en  la  3, 

% utilizando  la  regia  discriminante  lineal. 

% XI,  X2  y X3  son  muestras  de  las  poblaciones  1,  2 y 3, 

% respectivamente . 

% D es  el  vector  de  distancias  del  individuo  x a las 
% poblaciones  1,  2 y 3. 

x = x(:)  ; px  = length (x)  ; 

[nl,pl]  = size(Xl)  ; [n2,p2]  = size(X2)  ; [n3,p3]  = size(X3)  ; 

auxl  = [pl-p2,  p2-p3,  pl-p3]  ; 
if  any (auxl  ~=  0) 

error (' Las  matrices  de  datos  no  tienen  dimensiones  coherentes') 

else 

p = pi  ; clear  pi  p2  p3 

end 

if  px  ~=  p 

error ('El  vector  x no  tiene  dimension  adecuada' ) 

else 

clear  px 

end 

ml  = mean (XI)  ; m2  = mean(X2)  ; m3  = mean(X3)  ; 

SI  = cov(Xl)  ; S2  = cov(X2)  ; S3  = COv(X3)  ; 

S = ( (nl-1)  * SI  + (n2 - 1 ) * S2  + (n3-l)  * S3 ) / (nl+n2+n3 - 3 ) ; 

x_rep  = (ones  (3,1)  * x' ) - [ ml  ; m2  ; m3  ] ; 

D = diag(  x_rep  * inv(S)  * x_rep'  ) ; 

[Dmin, poblacion]  = min(D)  ; 

La  tabla  siguiente  muestra  los  vectores  D para  las  tres  nuevas  flores: 


ind. 

d(x,X  l) 

d(x,x2) 

d(x,x3) 

Xl 

2.2864 

113.6509 

210.0239 

x2 

105.9403 

3.7242 

16.4216 

X3 

171.0985 

17.3642 

5.5252 

luego  clasificamos  xi,  X2  y X3  en  las  especies  de  Iris  1,  2 y 3,  respectivamente. 

(b)  En  el  Problema  8.2  se  vio  que  existlan  diferencias  significativas  entre  las  matrices  de 
covarianzas.  As!  pues,  el  discriminador  cuadratico  podrfa  resultar  mas  adecuado  en  este  caso. 
Esta  regia  de  discrimination  asigna  la  nueva  observation  x a la  especie  1 si 

d(x,  Xj)  < ci(x,  5tj)  , para  todo  i ^ j. 

siendo  d(x,  Xj)  = log  |S*|  + (x  — x^'S^"  (x  — Xj)  (vease  el  Problema  9.2  y,  por  ejemplo, 
Johnson  y Wichern  2007  para  una  explicacion  mas  detallada).  Implementamos  este  metodo 
mediante  la  siguiente  funcion: 
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function  [poblacion, D]  = CuadratDiscrim3 (x, XI , X2 , X3 ) 

% [poblacion, D]  = CuadratDiscrim3 (x, XI , X2 , X3 ) 

% Regia  discriminante  cuadratica  para  tres  poblaciones 
% Clasifica  el  individuo  x en  la  poblacion  1,  en  la  2 o en  la  3 , 

% utilizando  la  regia  discriminante  cuadratica. 

% XI,  X2  y X3  son  muestras  de  las  poblaciones  1,  2 y 3, 

% respectivamente . 

% D es  el  vector  de  distancias  del  individuo  x a las 
% poblaciones  1,  2 y 3. 

x = x(:)  ; px  = length (x)  ; 

[nl,pl]  = size(Xl)  ; [n2,p2]  = size(X2)  ; [n3,p3]  = size(X3)  ; 

auxl  = [pl-p2,  p2-p3,  pl-p3]  ; 
if  any (auxl  ~=  0) 

error (' Las  matrices  de  datos  no  tienen  dimensiones  coherentes') 

else 

p = pi  ; clear  pi  p2  p3 

end 

if  px  ~=  p 

error (' El  vector  x no  tiene  dimension  adecuada' ) 

else 

clear  px 

end 

mgrande  = [ mean (XI)  ; mean(X2)  ; mean(X3)  ] ; 

Sgrande  = [ cov(Xl)  ; cov(X2)  ; cov(X3)  ] ; 

D2  = zeros (3,1)  ; 

for  i = 1 : 3 

Si  = Sgrande ([ (i-1) *p+l : i*p] ,: ) ; 
mi  = mgrande ( i , : ) ; 

D(i,l)  = log(det(Si))  + ( (x' -mi)  * inv(Si)  * (x-mi'))  ; 

end 

[Dmin, poblacion]  = min(D)  ; 

Ahora  los  vectores  D para  las  tres  nuevas  flores  son: 


ind. 

d(x,x  i) 

d(x,x2) 

d(x,x3) 

Xl 

-2.0229 

120.3326 

187.5065 

x2 

441.8145 

-7.1007 

5.8556 

X3 

770.0216 

4.0740 

-5.7384 

luego  clasificamos  estas  flores  en  las  mismas  especies  que  hablamos  determinado  en  el  apar- 
tado  (a). 
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PROBLEMA  9.6 


Representense  graficamente  los  datos  de  las  Tablas  8.1  y 9.1  en  un  diagrama  de  disper- 
sion multiple  mediante  la  orden  gplotmatrix  de  Matlab,  que  permite  diferenciar 
entre  los  distintos  grupos.  Esta  orden  solo  estd  disponible  con  la  Statistics  Toolbox. 


SOLUCION  ) 

Consideremos  primero  los  datos  de  la  Tabla  9.1  que  eran  componentes  de  dos  tipos  de  vino. 
Supongamos  que  tenemos  los  datos  separados  en  dos  matrices  XI  y X2  correspondientes  al 
vino  1 y al  2,  respectivamente,  como  en  el  Problema  9.4.  Para  utilizar  la  orden  gplotmatrix 
es  necesario  tener  las  observaciones  en  una  unica  matriz,  digamos  Datos,  y crear  un  elemento 
Grupo  que  contenga  variables  categoricas  indicadoras  del  grupo  al  que  pertenece  la  observa- 
tion. El  grafico  de  la  Figura  9.3  se  puede  crear  con  el  siguiente  codigo: 

nl  = length (XI)  ; n2  = length (X2)  ; 

Datos  = Datos  = [ XI  ; X2  ] ; 

Grupo  = cell (nl+n2 , 1)  ; 

for  i=l:nl 

Grupo {i,l}  = 'Vino  1'  ; 

end 

for  i=nl+l:nl+n2 

Grupo { i , 1 } = 'Vino  2'  ; 

end 

gplotmatrix (Datos ( : , 1)  , Datos ( : , 2) , Grupo, ' kk' , ' o* ' , [7  7]  , ' on' , . . . 

' ' , ' x_l ' , ' x_2 ' ) 

Si  hubieramos  definido  Grupo  como  vector  columna  de  la  siguiente  manera: 

Grupo  = [ ones(nl,l)  ; 2*ones(n2,l)  ] ; 


en  la  leyenda  solo  habrian  aparecido  los  numeros  1 y 2.  De  ahf  el  haber  creado  el  “cell  array”. 
Para  representar  graficamente  los  datos  de  los  iris  procederemos  de  manera  analoga.  Conside- 
ramos  las  matrices  de  datos  XI,  X2  y X3  definidas  en  la  solucion  del  Problema  9.5  y utilizamos 
el  codigo  que  sigue  para  obtener  la  Figura  9.4: 


Datos  = [ XI  ; X2  ; X3  ] ; 

Grupo  = cell (150,1)  ; 

for  i=l:50 

Grupo { i , 1 } = 'I.  setosa'  ; 

end 

for  i=51 : 100 

Grupo{i,l}  = 'I.  versicolor'  ; 

end 

for  i=101 : 150 


Grupo {i,l}  = 'I.  virginica'  ; 

end 

Variables  = cell (4,1)  ; 

Variables { 1 , 1 } = 'Long  Sep'  ; Variables { 2 , 1 } = 
Variables { 3 , 1 } = 'Long  Pet'  ; Variables { 4 , 1 } = 
gplotmatrix (Datos , Datos , Grupo, . . . 

' rbk' , ' *o . ' , [ ] , ' on' , ' ' , Variables ( : 


'Anch  Sep'  ; 
'Anch  Pet'  ; 

1) , Variables ( 


1)  ) 
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12.5  13  13.5  14  14.5 


Figura  9.3. 

Diagrama  de  dispersion  de  los  datos  de  vinos  (Problema  9.6) 


6 82  34  2460  1 2 

Long  Sep  Anch  Sep  Long  Pet  Anch  Pet 


Figura  9.4. 

Diagrama  de  dispersion  de  los  datos  de  iris  (Problema  9.6) 
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PROBLEMA  9.7 


Podemos  estimar  la  tasa  de  error  de  una  regia  de  clasificacion  mediante  un  procedi- 
miento  de  validacion  cruzada  (cross-validation)  propuesto  por  Lachenbruch  y Mickey 
(1968),  que  describimos  a continuacion  para  el  caso  de  dos  poblaciones. 

Paso  1.  Comenzar  con  las  observaciones  de  la  poblacion  1,  xn,  i = 1, . . . , n\.  Apar- 
tar  una  observacion  Xu  de  la  muestra  y construir  una  regia  de  clasificacion 
con  las  restantes  rt\  — 1 obsetyaciones  de  la  poblacion  1 y los  ri2  datos  de  la 
poblacion  2. 

Paso  2.  Clasificar  el  dato  xu  utilizando  la  regia  construida  en  el  Paso  1. 

Paso  3.  Repetir  los  Pasos  1 y 2 hasta  que  se  hay  an  clasificado  todas  las  obsetyaciones 
de  la  poblacion  1.  Calcular  m\,  el  numero  de  obsetyaciones  de  la  poblacion  1 
mal  clasificadas. 

Paso  4.  Repetir  los  Pasos  1 a 3 para  las  obsetyaciones  de  la  poblacion  2.  Denotar 
por  rri'2  el  numero  de  obsetyaciones  de  esta  poblacion  mal  clasificadas. 

Progrdmese  la  anterior  secuencia  de  pasos  en  Matlab  para  los  datos  del  Problema  9.4 
y la  regia  discriminante  lineal.  Eslime.se  P(i\j),  la  probabilidad  de  clasificar  erro- 
neamente  en  la  poblacion  i una  obsetyacion  que  en  realidad  proviene  de  la  poblacion 
j,  mediante  P(i\j)  = m.j/rij.  Estunese  tambien  la  tasa  global  de  error  mediante 
(m\  + m.2)/{ni  + 02).  Dibiijense  los  datos  en  un  grdfico  de  dispersion  y sehdlese 
cudles  son  los  que  estdn  mal  clasificados. 

SOLUCION  ) 

Suponemos  ya  introducidas  en  Matlab  las  matrices  XI  y X2  con  los  datos  de  las  poblaciones 
1 y 2,  respectivamente.  A continuacion  escribimos  la  funcion  que  estima  la  probabilidad  de 
clasificacion  erronea  y la  tasa  global  de  error.  Por  ejemplo,  el  valor  de  P(2|  1 ) lo  da  EC1.  Se 
utiliza  la  funcion  LinealDiscrim  del  Problema  9.4. 

function  [EC1 , EC2 , TGE]  = TasaErrorDiscLin (XI , X2 ) 

% TasaErrorDiscLin 

% Estimacion  de  la  tasa  de  error  en  la  regia  discriminante  lineal 
% con  dos  poblaciones  con  muestras  XI  y X2 . 

% Devuelve : 

% EC1  = probabilidad  de  clasificar  en  poblacion  2 un  dato  de 
% poblacion  1; 

% EC2  = probabilidad  de  clasificar  en  poblacion  1 un  dato  de 
% poblacion  2 ; 

% TGE  = tasa  global  de  error  de  clasificacion. 

[nl,p]  = size (XI)  ; [n2,p]  = size(X2)  ; 
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Poblacionl  = zeros (nl,l)  ; Poblacion2  = zeros (n2,l)  ; 

for  i =1 : nl 
if  i ==  1 

Xlmenosl  = XI ( [2 :end] , : ) ; 

else 

Xlmenosl  = XI ( [1 : i-1 , i+1 :nl] , : ) ; 

end 

Poblacionl ( i ) = (LinealDiscrim (XI ( i Xlmenosl , X2 ) ~=1 ) ; 

end 

for  i =1 : n2 
if  i ==  1 

X2menosl  = X2  ( [2 : end]  , : ) ; 

else 

X2menosl  = X2 ( [1 : i-1 , i+1 :n2] , : ) ; 

end 

Poblacion2 (i)  = (LinealDiscrim (X2 ( i XI , X2menosl ) ~=2 ) ; 

end 

ml  = sum (Poblacionl ) ; m2  = sum (Poblacion2 ) ; 

EC1  = ml /nl  ; EC2  = m2/n2  ; TGE  = (ml+m2 ) / (nl+n2 ) ; 

Obtenemos  las  estimaciones  P(l|2)  = 0 y P(2|l)  = 0.1. 

El  diagrama  de  dispersion  de  los  datos  aparece  en  la  Figura  9.5.  Hemos  marcado  con  flechas 
los  datos  mal  clasificados  de  la  poblacion  1 (del  vino  2 no  hay  ninguno).  Para  ello  hemos 
utilizado  esencialmente  las  ordenes: 

auxl  = find ( Poblacionl ) ; 

MalClasifl  = XI (auxl,:)  ; 

1800 
1600 
1400 
1200 
x™  1000 
800 
600 
400 
200 

12  12.5  13  13.5  14  14.5  15 

xi 

Figura  9.5. 

Diagrama  de  dispersion  y datos  mal  clasificados  (Problema  9.7) 
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PROBLEMA  9.8 


Para  los  datos  de  la  tabla  8.1,  estimese  la  tasa  de  error  cometida  con  las  reglas  dis- 
criminantes  propuestas  en  el  Problema  9.5. 


' SOLUCION  ) 

Escribimos  solo  la  funcion  de  Matlab  que  hace  el  calculo  para  el  caso  de  la  regia  discriminante 
lineal.  Para  el  caso  de  la  regia  cuadratica  es  totalmente  analogo. 

function  [EC1 , EC2 , EC3 , TGE]  = TasaErrorDiscLin3 (XI , X2 , X3 ) 

% TasaErrorDiscLin3 

% Estimacion  de  la  tasa  de  error  en  la  regia  discriminante  lineal 
% para  tres  poblaciones  con  muestras  XI,  X2  y X3 . 

% Devuelve 

% EC1  = probabilidad  de  clasificar  mal  un  dato  de  la  poblacion  1; 

% EC2  = probabilidad  de  clasificar  mal  un  dato  de  la  poblacion  2; 

% EC3  = probabilidad  de  clasificar  mal  un  dato  de  la  poblacion  3; 

% TGE  = tasa  global  de  error. 

[nl,p]  = size(Xl)  ; [n2,p]  = size(X2)  ; [n3,p]  = size(X3)  ; 
Poblacionl  = zeros (nl, 1)  ; Poblacion2  = zeros (n2,l)  ; 

Poblacion3  = zeros (n3,l)  ; 

for  i =l:nl 
if  i ==  1 

Xlmenosl  = XI ( [2 : end] , : ) ; 

else 

Xlmenosl  = XI ( [1 : i-1 , i+1 : nl] , : ) ; 

end 

Poblacionl (i)  = (LinealDiscrim3 (XI ( i Xlmenosl , X2 , X3 ) ~=1)  ; 

end 

for  i =l:n2 
if  i ==  1 

X2menosl  = X2 ( [2 : end] , : ) ; 

else 

X2menosl  = X2 ( [1 : i - 1 , i+1 : n2 ] , : ) ; 

end 

Poblacion2 (i)  = (LinealDiscrim3 (X2 ( i , : ) , XI , X2menosl , X3 ) ~=2 ) ; 

end 

for  i =l:n3 
if  i ==  1 

X3menosl  = X3 ( [2 : end]  , : ) ; 

else 

X3menosl  = X3 ( [1 : i- 1 , i+1 : n3 ] , : ) ; 

end 

Poblacion3 (i)  = (LinealDiscrim3 (X3 ( i , : ) , XI , X2 , X3menosl ) ~=3 ) ; 

end 
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ml  = sum (Poblacionl ) ; m2  = sum (Poblacion2 ) ; m3  = sum (Poblacion3 ) ; 

EC1  = ml/nl  ; EC2  = m2/n2  ; EC3  = m3/n3  ; 

TGE  = (ml+m2+m3 ) / (nl+n2+n3 ) ; 


PROBLEMA  9.9 


Los  datos  de  la  Tabla  9.2,  extrafdos  de  Newman  etal.  (1998),  son  observaciones  torna- 
dos sobre  pacientes  que  ban  sufrido  un  ataque  al  corazon.  Las  variables  consideradas 
son  X\  la  edad  a la  que  el  paciente  sufrio  el  ataque,  X2  y X:>  sendas  medidas  de  con- 
tractilidad  del  corazon,  X4  la  dimension  ventricular  izquierda  al  final  de  la  diastole  y 
X-,  una  medida  de  como  se  mueven  los  segmentos  del  ventriculo  izquierdo.  La  close  0 
estd  constituida  por  aquellos  pacientes  que  sobrevivieron  menos  de  un  aiio  desde  el 
ataque.  La  close  1 son  los  que  si  sobrevivieron. 

Se  tienen  obsetyaciones  referentes  a dos  pacientes  nuevos: 


Paciente 

Xx 

X2 

x3 

X4 

x5 

1 

70 

0.173 

16.02 

5.20 

18.56 

2 

62 

0.224 

12.45 

4.71 

14.38 

y se  desea  clasificarlos  en  alguna  de  las  dos  poblaciones.  Para  ello  se  utiliza  la  regia 
k-NN  ( fc-nearest  neighbours ) o de  los  k vecinos  mas  proximos.  Dada  una  observation 
x a clasificar,  se  toman  las  k obsetyaciones  x*  de  la  muestra  mas  cercanas  a x.  Se 
clasifica  x segitn  el  “voto  de  la  mayoria  ”,  es  deed;  se  asigna  x a la  close  0 si  el  numero 
de  k-vecinos  que  pertenecen  a esta  close  es  mayor  que  el  de  los  que  pertenecen  a la 
close  1. 

Implementese  en  Matlab  la  regia  k-NN  para  dos  poblaciones  y utiUcese  con  k = 5 
para  clasificar  a los  nuevos  pacientes. 

Observation:  Para  ilustrar  el  metodo,  utilizamos  la  distancia  euclidea  como  medida 
de  proximidad  entre  obsetyaciones.  Dependiendo  de  la  naturaleza  de  los  datos  send 
conveniente  reemplazarla  por  alguna  de  las  distancias  propuestas  en  el  Capitulo  5. 

( SOLUC ION  ) 

Podemos  utilizar  el  siguiente  codigo,  facilmente  generalizable  a mayor  numero  de  poblacio- 
nes. La  matriz  Datos  esta  formada  por  las  cinco  primeras  columnas  de  la  Tabla  9.2  y el 
vector  Clase  por  la  ultima  columna  de  esta  tabla.  NuevaObs  es  el  vector  de  observaciones 
correspondiente  a un  nuevo  paciente. 

function  ClaseNuevaObs  = kNNClasif (NuevaObs , Datos , Clase , k) 

% kNNClasif (NuevaObs , Datos , Clase , k) 

% Clasifica  NuevaObs  utilizando  la  regia  k-NN  (k  vecinos  mas 
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Tabla  9.2. 

Enfermos  del  corazon  (Problema  9.9).  Fuente:  Newman  et  al.  (1998) 


Xi 

x2 

Ais 

x4 

X5 

Clase 

71 

0.260 

9.000 

4.600 

14.00 

0 

72 

0.380 

6.000 

4.100 

14.00 

0 

55 

0.260 

4.000 

3.420 

14.00 

0 

60 

0.253 

12.062 

4.603 

16.00 

0 

57 

0.160 

22.000 

5.750 

18.00 

0 

68 

0.260 

5.000 

4.310 

12.00 

0 

62 

0.230 

31.000 

5.430 

22.50 

0 

60 

0.330 

8.000 

5.250 

14.00 

0 

46 

0.340 

0.000 

5.090 

16.00 

0 

54 

0.140 

13.000 

4.490 

15.50 

0 

77 

0.130 

16.000 

4.230 

18.00 

1 

62 

0.450 

9.000 

3.600 

16.00 

0 

73 

0.330 

6.000 

4.000 

14.00 

0 

60 

0.150 

10.000 

3.730 

14.00 

0 

62 

0.120 

23.000 

5.800 

11.67 

1 

55 

0.250 

12.063 

4.290 

14.00 

0 

69 

0.260 

11.000 

4.650 

18.00 

1 

62 

0.070 

20.000 

5.200 

24.00 

1 

66 

0.090 

17.000 

5.819 

8.00 

0 

66 

0.220 

15.000 

5.400 

27.00 

1 

69 

0.150 

12.000 

5.390 

19.50 

1 

85 

0.180 

19.000 

5.460 

13.83 

1 

73 

0.230 

12.733 

6.060 

7.50 

1 

71 

0.170 

0.000 

4.650 

8.00 

1 

55 

0.210 

4.200 

4.160 

14.00 

0 

61 

0.610 

13.100 

4.070 

13.00 

0 

54 

0.350 

9.300 

3.630 

11.00 

0 

70 

0.270 

4.700 

4.490 

22.00 

0 

79 

0.150 

17.500 

4.270 

13.00 

0 

59 

0.030 

21.300 

6.290 

17.00 

0 

58 

0.300 

9.400 

3.490 

14.00 

0 

60 

0.010 

24.600 

5.650 

39.00 

1 

66 

0.290 

15.600 

6.150 

14.00 

0 

63 

0.150 

13.000 

4.570 

13.00 

0 

57 

0.130 

18.600 

4.370 

12.33 

0 

70 

0.100 

9.800 

5.300 

23.00 

0 

79 

0.170 

11.900 

5.150 

10.50 

0 

72 

0.187 

12.000 

5.020 

13.00 

0 

51 

0.160 

13.200 

5.260 

11.00 

0 

70 

0.250 

9.700 

5.570 

5.50 

0 

65 

0.360 

8.800 

5.780 

12.00 

0 

78 

0.060 

16.100 

5.620 

13.67 

0 

86 

0.225 

12.200 

5.200 

24.00 

1 

56 

0.250 

11.000 

4.720 

11.00 

0 

60 

0.120 

10.200 

4.310 

15.00 

0 

59 

0.290 

7.500 

4.750 

13.00 

0 

54 

0.217 

17.900 

4.540 

16.50 

0 

64 

0.200 

7.100 

4.580 

14.00 

0 

54 

0.070 

16.800 

4.160 

18.00 

0 

78 

0.050 

10.000 

4.440 

15.00 

1 

55 

0.280 

5.500 

4.480 

22.00 

0 

59 

0.344 

9.100 

4.040 

9.00 

0 

74 

0.200 

4.800 

4.560 

12.50 

0 

65 

0.160 

8.500 

5.470 

16.00 

1 

58 

0.170 

28.900 

6.730 

26.08 

1 

70 

0.380 

0.000 

4.550 

10.00 

0 

63 

0.300 

6.900 

3.520 

18.16 

1 

59 

0.170 

14.300 

5.490 

13.50 

0 

57 

0.228 

9.700 

4.290 

11.00 

0 

78 

0.230 

40.000 

6.230 

14.00 

1 

62 

0.260 

7.600 

4.420 

14.00 

1 

% proximos)  . 

% Variables  de  entrada: 

% NuevaObs  = vector  a clasificar  con  numero  de  componentes  p 
% Datos  = Matriz  de  datos  nxp  con  individuos  de 
% clase  (0  o 1)  conocida. 

% Clase  = Vector  nxl  con  etiquetas  0 o 1 de  los  individuos  de 
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% la  muestra. 

% k = Numero  de  vecinos  mas  proximos  a NuevaObs  para  su 
% clasif icacion . 

% Variable  de  salida: 

% Clase=0  (resp.  1)  si  la  mayoria  de  los  k-NN  son  de 
% clase  0 (resp.  1) . 

% En  caso  de  empate  se  sortea  Clase  aleatoriamente . 

% Control  del  numero  de  variables  de  entrada 
if  nargin  < 4 

error (' Faltan  variables  de  entrada') 

end 


NuevaObs  = NuevaObs  ( : ) 
Clase  = Clase  ( : ) ; 


"Obligamos"  a NuevaObs  a que  sea 
vector  columna 


% Control  de  la  dimension  de  variables  de  entrada 
[n,p]  = size(Datos)  ; p2  = length (NuevaObs)  ; 

[nC,pC]  = size (Clase)  ; 
if  n -=  nC 

error (' El  numero  de  filas  de  la  muestra  no  coincide  con... 
el  de  la  clase' ) 

end 

if  p ~=  p2 

error (' El  numero  de  datos  de  la  nueva  observacion  no  es... 
coherente  con  la  dimension  de  la  muestra' ) 

end 

if  pC  ~=  1 

error (' La  clase  tiene  que  ser  un  vector,  no  una  matriz') 

end 

clear  nC  pC  p2 


% Calculamos  la  distancia  euclidea  de  NuevaObs  a la  muestra 
DistEuclid  = sum( (Datos  - ones (n, 1)  * NuevaObs '). ^2 , 2 ) ; 

[DistEOrd, IndEOrd]  = sort (DistEuclid)  ; % Ordenamos  las  distancias. 
ClasekNN  = Clase ( IndEOrd ( [1 : k] ) ) ; % Clases  de  los  k-NN 

NumkNNl  = sum(ClasekNN  ==  1)  ; % Numero  de  kNN  en  Clase  1. 

NumkNNO  = sum(ClasekNN  ==  0)  ; % Numero  de  kNN  en  Clase  0. 
if  NumkNNl  > NumkNNO 

ClaseNuevaObs  = 1 ; 
elseif  NumkNNl  < NumkNNO 
ClaseNuevaObs  = 0 ; 

else  % Se  "tira  una  moneda  al  aire"  y se  decide  la  clase 
% aleatoriamente 
u = rand (1,1)  ; 

ClaseNuevaObs  = (u  >=  0.5)  ; 

end 


Tomando  k = 5 asignaremos  el  paciente  1 a la  clase  de  los  que  sobreviviran  mas  de  un  ano  y 
el  paciente  2 a la  otra  clase. 
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PROBLEMA  9.10 


GeneraMcen.se  las  funciones  Matlab  escritas  en  los  Problemas  9.4  y 9.5  para  imple- 
mentor la  regia  discriminante  lineal  con  un  numero  generico  g de  closes.  Apliquese 
la  nueva  funcion  para  clasificar  los  dos  pacientes  del  Problema  9.9. 

Indication:  La  nueva  funcion  detectard  el  numero  g de  poblaciones  entre  las  que  hay 
que  discriminar  como  la  longitud  del  vector  n = (m,  ri2,  ■ ■ ■ , tig)',  que  contiene  los 
tamahos  muestrales  nt  observados  en  cada  poblacion  i.  El  vector  n sera  una  variable 
de  entrada  de  la  funcion. 


SOLUCION  ) 

Proponemos  el  siguiente  codigo 

function  poblacion  = LinealDiscrimg (x, X, vector_n) 

% LinealDiscrimg (x, X, vector_n) 

% Regia  discriminante  lineal  para  cualquier  numero  g de 
% poblaciones 
% Variables  de  entrada: 

% x Observacion  a clasificar:  vector  de  p componentes 

% vector_n  Vector  de  dimension  gxl,  que  contiene 

% nl,  n2,  ng,  siendo 

% ni  el  numero  de  observaciones  en  la  poblacion  i,  para 

% i=l , 2 , . . . , g . 

% X Matriz  de  datos  de  dimension  nxp,  con  n=nl+n2+ . . . +ng, 

% que  contiene  las  matrices  de  datos  XI,  X2 , . . . , Xg  de  las 

% poblaciones  puestas  en  orden  una  encima  de  la  otra. 

x = x(:)  ; px  = length (x)  ; 

g = length (vector_n)  ; 

[n,p]  = size(X)  ; 

if  px  ~=  p 

error (' La  dimension  de  x no  es  coherente  con  la  de  la. . . 
matriz  de  datos  X' ) 

else 

clear  px 

end 

mMatriz  = zeros (g,p)  ; S = zeros (p)  ; 

for  i=l:g 

if  i ~=  1 

Filal  = sum (vector_n ( [1 : i-1] ) ) +1  ; 

Filani  = Filal  -1  + vector_n(i)  ; 

else 

Filal  = 1 ; Filani  = vector_n(l)  ; 

end 

Xi  = X ( [Filal : Filani] ,: ) ; 

mMatriz (i,:)  = mean(Xi)  ; 
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Si  = cov(xi)  ; 

S = S + (vector_n (i) -1)  * Si  ; 

end 

S = S/ (sum(vector_n) -g)  ; 

x_rep  = (ones(g,l)  * x' ) - mMatriz  ; 

D2  = diag ( x_rep  * inv(S)  * x_rep'  ) ; 

[D2min, poblacion]  = min(D2)  ; 


Para  aplicar  esta  funcion  a los  datos  del  Problema  9.9  utilizaremos  las  mismas  matrices  Datos 
y Clase  que  usabamos  en  este  problema.  Con  el  codigo 


IndVivos  = f ind (Clase==l)  ; IndMuertos  = find (Clase==0)  ; 
vector_n  = [length ( IndMuertos)  ; length ( IndVivos )] ; 

X = [Datos ( IndVivos ,: ) ; Datos ( IndMuertos ,:)] ; 
x = [ 70  ; 0.173  ; 16.02  ; 5.20  ; 18.56  ] ; 

poblacion  = LinealDiscrimg (x, X, vector_n) 

comprobamos  que  la  clasificacion  de  los  nuevos  pacientes  coincide  en  este  caso  con  la  de  la 
regia  fc-NN. 


PROBLEMA9.il 


Estimese  la  tasa  de  error  cometida  con  la  regia  k-NN  en  el  Problema  9. 9 median- 
te  el  procedimiento  de  validation  cruzada  (vease  el  Problema  9.7).  Calculese  dicha 
estimacion  para  k = 1,  2, . . . , n — 1,  siendo  n el  tamaho  muestral  total.  Decidase 
si  el  valor  de  k que  minimiza  la  tasa  global  de  error  es  el  mas  adecuado.  En  caso 
contrario,  propongase  otro  metodo  de  eleccion  del  numero  de  vecinos. 


( SOLUC ION  ) 

Utilizaremos  las  matrices  Datos  y Clase  del  Problema  9.9.  El  codigo  que  estima  la  tasa  de 
error  mediante  validacion  cruzada  para  k vecinos  es  el  siguiente: 

function  [EC1 , ECO , TGE]  = TasaErrorDisckNN (Datos , Clase , k) 

% TasaErrorDisckNN 

% Estimacion  de  tasa  de  error  en  regia  kNN  con 
% dos  poblaciones  (0  y 1) . 

% Variables  de  salida: 

% EC1  = probabilidad  de  clasificar  en  Poblacion  0 
% un  dato  de  la  1 . 

% ECO  = probabilidad  de  clasificar  en  Poblacion  1 
% un  dato  de  la  0 . 

% TGE  = tasa  global  de  error. 


www.FreeLibros.me 


184 


PROBLEMAS  RESUELTOS  DE  ESTADISTICA  MULTIVARIANTE 


[n,p]  = size(Datos)  ; 

ErrorSi  = zeros (n, 1)  ; 

for  i =l:n 
if  i ==  1 

DatMenosl  = Datos ( [2 : n]  , : ) ; ClMenosl  = Clase ( [2 : n]  , : ) ; 

ErrorSi (1)  = ( kNNClasif (Datos ( 1 DatMenosl . 

ClMenosl, k)  ~=  Clase  (1))  ; 

elseif  i ==  n 

DatMenosl  = Datos ( [1 : n- 1] ,: ) ; ClMenosl  = Clase ( [1 :n-l] ,: ) ; 

ErrorSi (n)  = ( kNNClasif (Datos (n, : ) , DatMenosl , . . . 

ClMenosl, k)  ~=  Clase (n) ) ; 

else 

DatMenosl  = Datos ( [1 : i - 1 , i+1 : n] ,: ) ; 

ClMenosl  = Clase ( [1 : i - 1 , i+1 : n] ,: ) ; 

ErrorSi (i)  = ( kNNClasif (Datos ( i ,:), DatMenosl ,.. . 

ClMenosl, k)  ~=  Clase  (i) ) ; 

end 

end 

nl  = sum(Clase  ==  1)  ; nO  = sum(Clase  ==  0)  ; 

ml  = sum( (Clase  ==  1) .*ErrorSi)  ; 
mO  = sum ( (Clase  ==  0) .*ErrorSi)  ; 

EC1  = ml/nl  ; ECO  = mO/nO  ; 

TGE  = (mO+ml) / (nO+nl)  ; 

A continuation  calculamos  la  tasa  de  error  para  n - 1 : 

TasaError  = zeros(n-l,3)  ; 
for  k = 1 : n- 1 

[EC1 , ECO , TGE]  = TasaErrorDisckNN (Datos , Clase , k)  ; 

TasaError (k, : ) = [EC1 , ECO , TGE]  ; 

end 

y obtenemos  las  tres  primeras  columnas  de  la  Tabla  9.3.  Aparecen  solo  los  resultados  para 
k < 25  porque  para  k > 26  el  resultado  coincide  con  cl  de  k = 25.  La  menor  tasa  glo- 
bal de  error  corresponde  a k = 20  o k = 21,  pero  esta  eleccion  no  seria  adecuada,  ya  que 
probablemente  errarfamos  en  la  clasificacion  de  observaciones  de  la  poblacion  1.  Un  mejor 
procedimiento  en  la  eleccion  del  numero  de  vecinos  es  tomar  aquel  valor  de  k que  minimice 
la  suma  de  cuadrados  EC12+EC02  (vease  la  Tabla  9.3)  y que  en  este  caso  seria  k = 2 o k = 4. 
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Tabla  9.3. 

Tasa  estimada  de  error  en  regia  fc-NN  (Problema  9.1 1) 


mm 

EC1 

ECO 

TGE 

i 

0.6471 

0.1591 

0.2951 

0.4440 

2 

0.6471 

0.1364 

0.2787 

0.4373 

3 

0.1364 

0.2951 

0.5169 

4 

0.6471 

0.1364 

0.2787 

0.4373 

5 

0.8235 

0.0909 

0.2951 

0.6865 

6 

0.8824 

0.0909 

0.3115 

0.7868 

7 

0.8824 

0.0909 

0.3115 

0.7868 

8 

0.7647 

0.0909 

0.2787 

0.5930 

9 

0.9412 

0.0682 

0.3115 

0.8905 

10 

1 

0.0909 

0.3443 

1.0083 

11 

1 

0.0682 

0.3279 

1.0046 

12 

1 

0.0227 

0.2951 

1.0005 

13 

1 

0 

0.2787 

1 

14 

1 

0 

0.2787 

1 

15 

1 

0 

0.2787 

1 

16 

1 

0 

0.2787 

1 

17 

1 

0 

0.2787 

1 

18 

1 

0 

0.2787 

1 

19 

1 

0 

0.2787 

1 

20 

0.9412 

0 

0.2623 

0.8858 

21 

0.9412 

0 

0.2623 

0.8858 

22 

1 

0 

0.2787 

1 

23 

1 

0 

0.2787 

1 

24 

1 

0 

0.2787 

1 

25 

1 

0 

0.2787 

1 
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